프로세스 기반 자기 보상 언어 모델
Process-based Self-Rewarding Language Models
March 5, 2025
저자: Shimao Zhang, Xiao Liu, Xin Zhang, Junxiao Liu, Zheheng Luo, Shujian Huang, Yeyun Gong
cs.AI
초록
대형 언어 모델(LLM)은 다양한 다운스트림 작업에서 뛰어난 성능을 보여주며 여러 시나리오에 널리 적용되고 있습니다. 인간이 주석을 단 선호도 데이터는 LLM의 성능을 더욱 향상시키기 위해 훈련에 사용되지만, 이는 인간 성능의 상한선에 의해 제약을 받습니다. 따라서 LLM이 자신의 출력에 대해 보상을 생성함으로써 훈련 데이터를 만들어내는 자기 보상(Self-Rewarding) 방법이 제안되었습니다. 그러나 기존의 자기 보상 패러다임은 수학적 추론 시나리오에서 효과적이지 않으며 오히려 성능 저하를 초래할 수 있습니다. 본 연구에서는 언어 모델을 위한 프로세스 기반 자기 보상 파이프라인을 제안합니다. 이는 자기 보상 패러다임 내에서 장기간 사고 추론, 단계별 LLM-as-a-Judge, 그리고 단계별 선호도 최적화를 도입합니다. 우리의 새로운 패러다임은 반복적인 프로세스 기반 자기 보상을 통해 여러 수학적 추론 벤치마크에서 LLM의 성능을 성공적으로 향상시켰으며, 자기 보상이 인간 능력을 초월할 수 있는 LLM 추론을 달성할 수 있는 엄청난 잠재력을 입증했습니다.
English
Large Language Models have demonstrated outstanding performance across
various downstream tasks and have been widely applied in multiple scenarios.
Human-annotated preference data is used for training to further improve LLMs'
performance, which is constrained by the upper limit of human performance.
Therefore, Self-Rewarding method has been proposed, where LLMs generate
training data by rewarding their own outputs. However, the existing
self-rewarding paradigm is not effective in mathematical reasoning scenarios
and may even lead to a decline in performance. In this work, we propose the
Process-based Self-Rewarding pipeline for language models, which introduces
long-thought reasoning, step-wise LLM-as-a-Judge, and step-wise preference
optimization within the self-rewarding paradigm. Our new paradigm successfully
enhances the performance of LLMs on multiple mathematical reasoning benchmarks
through iterative Process-based Self-Rewarding, demonstrating the immense
potential of self-rewarding to achieve LLM reasoning that may surpass human
capabilities.Summary
AI-Generated Summary