Procesgebaseerde zelfbelonende taalmodellen
Process-based Self-Rewarding Language Models
March 5, 2025
Auteurs: Shimao Zhang, Xiao Liu, Xin Zhang, Junxiao Liu, Zheheng Luo, Shujian Huang, Yeyun Gong
cs.AI
Samenvatting
Grote Taalmodellen hebben uitstekende prestaties getoond bij diverse downstream taken en worden breed toegepast in meerdere scenario's. Menselijk geannoteerde voorkeursdata wordt gebruikt voor training om de prestaties van LLMs verder te verbeteren, wat echter beperkt wordt door de bovengrens van menselijke prestaties. Daarom is de Self-Rewarding methode voorgesteld, waarbij LLMs trainingsdata genereren door hun eigen uitvoer te belonen. Het bestaande self-rewarding paradigma is echter niet effectief in wiskundige redeneerscenario's en kan zelfs leiden tot een afname in prestaties. In dit werk stellen we de Process-based Self-Rewarding pipeline voor taalmodellen voor, die lang-durig redeneren, stapgewijze LLM-as-a-Judge en stapgewijze voorkeursoptimalisatie introduceert binnen het self-rewarding paradigma. Ons nieuwe paradigma verbetert met succes de prestaties van LLMs op meerdere wiskundige redeneerbenchmarks door iteratieve Process-based Self-Rewarding, wat het immense potentieel van self-rewarding aantoont om LLM-redenering te bereiken die menselijke capaciteiten mogelijk overstijgt.
English
Large Language Models have demonstrated outstanding performance across
various downstream tasks and have been widely applied in multiple scenarios.
Human-annotated preference data is used for training to further improve LLMs'
performance, which is constrained by the upper limit of human performance.
Therefore, Self-Rewarding method has been proposed, where LLMs generate
training data by rewarding their own outputs. However, the existing
self-rewarding paradigm is not effective in mathematical reasoning scenarios
and may even lead to a decline in performance. In this work, we propose the
Process-based Self-Rewarding pipeline for language models, which introduces
long-thought reasoning, step-wise LLM-as-a-Judge, and step-wise preference
optimization within the self-rewarding paradigm. Our new paradigm successfully
enhances the performance of LLMs on multiple mathematical reasoning benchmarks
through iterative Process-based Self-Rewarding, demonstrating the immense
potential of self-rewarding to achieve LLM reasoning that may surpass human
capabilities.Summary
AI-Generated Summary