반영, 재시도, 보상: 강화 학습을 통한 자기 개선형 대형 언어 모델
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning
May 30, 2025
저자: Shelly Bensal, Umar Jamil, Christopher Bryant, Melisa Russak, Kiran Kamble, Dmytro Mozolevskyi, Muayad Ali, Waseem AlShikh
cs.AI
초록
우리는 대규모 언어 모델의 성능을 자기 성찰과 강화 학습을 통해 개선하는 방법을 탐구합니다. 모델이 잘못된 답변을 했을 때 더 나은 자기 성찰을 생성하도록 유도함으로써, 합성 데이터 생성이 불가능하고 이진 피드백만 가능한 상황에서도 복잡하고 검증 가능한 과제를 해결하는 모델의 능력을 향상시킬 수 있음을 입증합니다. 우리의 프레임워크는 두 단계로 작동합니다: 첫째, 주어진 과제를 실패했을 때 모델은 이전 시도를 분석하는 자기 성찰적 코멘트를 생성합니다; 둘째, 모델은 자기 성찰을 맥락에 포함시켜 과제에 다시 도전합니다. 후속 시도가 성공하면, 자기 성찰 단계에서 생성된 토큰에 보상을 부여합니다. 우리의 실험 결과는 다양한 모델 아키텍처에서 상당한 성능 향상을 보여주며, 수학 방정식 작성에서는 최대 34.7%, 함수 호출에서는 18.1%의 개선을 달성했습니다. 특히, 더 작은 파라미터 규모(15억에서 70억)의 미세 조정된 모델들이 동일 계열에서 10배 더 큰 모델들을 능가하는 것으로 나타났습니다. 따라서 우리의 새로운 패러다임은 제한된 외부 피드백으로도 어려운 과제에서 스스로 개선할 수 있는 더 유용하고 신뢰할 수 있는 언어 모델로 나아가는 흥미로운 길을 제시합니다.
English
We explore a method for improving the performance of large language models
through self-reflection and reinforcement learning. By incentivizing the model
to generate better self-reflections when it answers incorrectly, we demonstrate
that a model's ability to solve complex, verifiable tasks can be enhanced even
when generating synthetic data is infeasible and only binary feedback is
available. Our framework operates in two stages: first, upon failing a given
task, the model generates a self-reflective commentary analyzing its previous
attempt; second, the model is given another attempt at the task with the
self-reflection in context. If the subsequent attempt succeeds, the tokens
generated during the self-reflection phase are rewarded. Our experimental
results show substantial performance gains across a variety of model
architectures, as high as 34.7% improvement at math equation writing and 18.1%
improvement at function calling. Notably, smaller fine-tuned models (1.5
billion to 7 billion parameters) outperform models in the same family that are
10 times larger. Our novel paradigm is thus an exciting pathway to more useful
and reliable language models that can self-improve on challenging tasks with
limited external feedback.