GPT-4가 GPT-4 오류 식별 가능: 오픈AI, ‘크리틱GPT’ 공개

최근 인공지능(AI) 분야에서 큰 발전을 이룬 오픈AI는 'GPT-4'를 활용해 AI가 생성한 코드에서 오류를 식별하는 새로운 모델, ‘크리틱GPT(CriticGPT)’를 공개했습니다. 이로 인해 사람들의 평가가 어려운 AI 출력 문제까지도 감지할 수 있게 되어, AI의 성능을 한층 더 향상시킬 수 있는 길이 열렸습니다.

크리틱GPT: 새로운 AI 오류 식별 모델

오픈AI는 2024년 6월 27일(현지시간) GPT-4를 활용해 GPT-4가 생성한 코드에서 오류를 식별하는 모델인 ‘크리틱GPT(CriticGPT)’에 관한 논문을 소개했습니다. 크리틱GPT는 인간 트레이너가 대형언어모델(LLM)의 출력을 평가하는 ‘인간 피드백 강화학습(RLHF)’ 과정에 통합되어, 인간이 발견하지 못하는 오류나 환각을 식별합니다.

크리틱GPT (사진=오픈AI) 출처 : AI타임스(https://www.aitimes.com)

인간 피드백 강화학습의 한계와 크리틱GPT의 역할

GPT-4와 같은 모델의 추론 및 행동이 향상됨에 따라 '챗GPT'는 더욱 정확해지고, 실수는 더 미묘해져 감지하기 어려워졌습니다. 이는 인간 트레이너가 부정확한 부분을 식별하기 어렵게 만들어 RLHF 작업을 훨씬 더 복잡하게 만듭니다. RLHF의 근본적인 한계로 인해 모델이 점차 피드백을 제공할 수 있는 어느 누구보다 더 많은 지식을 갖추게 되면서 모델 정렬(alignment)이 더 어렵게 될 수 있습니다. 정렬은 AI 시스템을 인간이 의도한 목표, 선호도 또는 윤리적 원칙에 맞게 조정하는 것을 의미합니다.

이를 해결하기 위해 오픈AI는 챗GPT의 답변에서 부정확성을 강조하는 비평을 작성하도록 크리틱GPT를 훈련했습니다. 크리틱GPT는 소프트웨어에 자주 나타나는 다양한 코딩 오류를 인식하고 표시하는 방법을 배우기 위해, 의도적인 버그가 포함된 코드 샘플 데이터셋으로 훈련되었습니다.

AI가 실패한 최신 사건 10가지

위 버튼을 누르면 해당 기사 페이지로 안전하게 이동합니다.

크리틱GPT의 훈련 과정과 성과

훈련 과정에서 인간 트레이너들은 챗GPT가 작성한 코드에 수동으로 오류를 삽입하고, 마치 자신이 실제로 버그를 발견한 것처럼 샘플 피드백을 작성하도록 요청받았습니다. 이를 통해 크리틱GPT가 수동으로 삽입된 버그와 자연적으로 발생하는 챗GPT 버그를 모두 잡아낼 수 있는지 연구했습니다.

그 결과, 크리틱GPT는 인간 트레이너들이 작성하는 것보다 더 포괄적인 비평을 작성하도록 도와주는 것으로 나타났습니다. 또한 인간 트레이너와 크리틱GPT가 함께 작성한 비평이 크리틱GPT만으로 작성한 비평보다 환각을 덜 발생시키는 것으로 나타났습니다. 인간 트레이너들은 인간이 작성한 비평보다 크리틱GPT가 작성한 비평을 63% 더 선호했습니다. 이는 크리틱GPT가 사소한 불만을 덜 제기하고 잘못된 답을 옳다고(false positive) 잘못 지적하는 일이 적기 때문입니다.

크리틱GPT 상세 내용, 한계점

위 버튼을 누르면 크리틱GPT 상세 내용과 한계점 페이지로 안전하게 이동합니다.

크리틱GPT의 실용화와 미래 전망

크리틱GPT는 인간 주석자가 ‘완벽하다’고 표시한 훈련 데이터셋에서도 여전히 24%의 데이터셋에서 버그와 오류를 발견했습니다. 이는 더 복잡해지는 AI 시스템을 정렬하기 위해서는 더 나은 도구가 필요하다는 점을 시사합니다. 오픈AI는 크리틱GPT를 RLHF 파이프라인에 통합하고 확장해 실용화할 계획입니다.

결론적으로, 크리틱GPT는 AI 모델의 성능을 향상시키고 정렬 문제를 해결하는 데 중요한 역할을 할 것으로 기대됩니다. GPT-4를 이용해 GPT-4의 실수를 잡는 이 혁신적인 접근 방식은 AI 기술의 발전과 활용에 있어 중요한 이정표가 될 것입니다. AI의 성능 향상과 정렬 문제 해결을 위해 지속적인 연구와 개발이 필요하며, 크리틱GPT는 그 과정에서 중요한 도구가 될 것입니다.

'AI Insight News' 카테고리의 다른 글

구글 딥마인드, AI 훈련 속도 13배 빠르고, 10배 저렴한 ‘제스트’ 공개 (0)	2024.07.08
국민 절반 딥페이크 경험 58%: AI 사이버 불링 문제 심각 사례 확인 (0)	2024.07.07
AI 국가자격증 AICE(인공지능 에이스)에서 취득하기: 무료수강신청 링크 제공 (2)	2024.07.05
"그거 AI슬롭이야"... 기괴하고 초현실적인 AI 스팸 콘텐츠의 등장, 뭔 뜻? (0)	2024.07.04
인격 AI 페르소나 챗봇, 1인 1봇 시대 열 것! 페르소나 프롬프트 제공 (0)	2024.07.02