반영, 재시도, 보상: 강화 학습을 통한 자기 개선형 대형 언어 모델Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning
우리는 대규모 언어 모델의 성능을 자기 성찰과 강화 학습을 통해 개선하는 방법을 탐구합니다. 모델이 잘못된 답변을 했을 때 더 나은 자기 성찰을 생성하도록 유도함으로써, 합성 데이터 생성이 불가능하고 이진 피드백만 가능한 상황에서도 복잡하고 검증 가능한 과제를 해결하는 모델의 능력을 향상시킬 수 있음을 입증합니다. 우리의 프레임워크는 두 단계로 작동합니다: 첫째, 주어진 과제를 실패했을 때 모델은 이전 시도를 분석하는 자기 성찰적 코멘트를 생성합니다; 둘째, 모델은 자기 성찰을 맥락에 포함시켜 과제에 다시 도전합니다. 후속 시도가 성공하면, 자기 성찰 단계에서 생성된 토큰에 보상을 부여합니다. 우리의 실험 결과는 다양한 모델 아키텍처에서 상당한 성능 향상을 보여주며, 수학 방정식 작성에서는 최대 34.7%, 함수 호출에서는 18.1%의 개선을 달성했습니다. 특히, 더 작은 파라미터 규모(15억에서 70억)의 미세 조정된 모델들이 동일 계열에서 10배 더 큰 모델들을 능가하는 것으로 나타났습니다. 따라서 우리의 새로운 패러다임은 제한된 외부 피드백으로도 어려운 과제에서 스스로 개선할 수 있는 더 유용하고 신뢰할 수 있는 언어 모델로 나아가는 흥미로운 길을 제시합니다.