Modèles de langage à auto-récompense temporelle : Découplage Choisi-Rejeté via Passé-Futur
Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future
August 8, 2025
papers.authors: Yidong Wang, Xin Wang, Cunxiang Wang, Junfeng Fang, Qiufeng Wang, Jianing Chu, Xuran Meng, Shuxun Yang, Libo Qin, Yue Zhang, Wei Ye, Shikun Zhang
cs.AI
papers.abstract
Les modèles de langage auto-récompensants proposent une architecture dans laquelle les grands modèles de langage (LLMs) génèrent à la fois des réponses et évaluent leurs propres sorties via le mécanisme LLM-as-a-Judge, améliorant dynamiquement leurs capacités génératives grâce à une optimisation directe des préférences (DPO) itérative. Cependant, notre analyse révèle une limitation critique des paradigmes existants d'auto-récompense : l'amélioration synchronisée des réponses choisies et rejetées réduit progressivement la différence de représentation entre les échantillons contrastés, compromettant ainsi l'apprentissage efficace des préférences. Nous proposons des modèles de langage auto-récompensants temporels qui coordonnent stratégiquement les générations passées, présentes et futures du modèle pour maintenir les signaux d'apprentissage. Notre cadre en deux phases introduit : (1) le rejet ancré - fixation des réponses rejetées en utilisant les sorties du modèle initial passé, et (2) le choix guidé par l'avenir - curation dynamique des échantillons choisis en utilisant les prédictions du modèle de la prochaine génération. Des expériences approfondies sur trois familles de modèles (Llama, Qwen, Mistral) et différentes tailles de modèles (Llama3B/8B/70B) démontrent des améliorations significatives lors de l'entraînement avec notre méthode par rapport à l'auto-récompense utilisant les mêmes ressources de calcul. Par exemple, Llama3.1-8B atteint un taux de victoire de 29,44 sur AlpacaEval 2.0 avec notre méthode, surpassant la base de référence d'auto-récompense (19,69) de 9,75. Notamment, notre méthode démontre également une généralisation hors distribution supérieure dans des tâches de raisonnement mathématique (GSM8K), de questions-réponses basées sur la connaissance (ARC, TruthfulQA) et de génération de code (HumanEval), bien que nous ne collections pas spécifiquement de telles données d'entraînement.
English
Self-Rewarding Language Models propose an architecture in which the Large
Language Models(LLMs) both generates responses and evaluates its own outputs
via LLM-as-a-Judge prompting, dynamically improving its generative capabilities
through iterative Direct Preference Optimization (DPO). However, our analysis
reveals a critical limitation in existing Self-Rewarding paradigms: the
synchronized improvement of chosen and rejected responses progressively narrows
the representational difference between contrasting samples, undermining
effective preference learning. We propose Temporal Self-Rewarding
Language Models that strategically coordinate past, present, and future model
generations to sustain learning signals. Our dual-phase framework introduces:
(1) Anchored Rejection - fixing rejected responses using the past
initial model's outputs and (2) Future-Guided Chosen - dynamically
curating chosen samples using next-generation model predictions. Extensive
experiments across three model families (Llama, Qwen, Mistral) and different
model sizes (Llama3B/8B/70B) demonstrate significant improvements when trained
with our method compared to Self-Rewarding using same computation resources.
For example, Llama3.1-8B reaches a 29.44 win rate on AlpacaEval 2.0 with our
method, outperforming the Self-Rewarding baseline (19.69) by 9.75. Notably, our
method also demonstrates superior out-of-distribution generalization across
mathematical reasoning (GSM8K), knowledge-based QA (ARC, TruthfulQA), and code
generation (HumanEval) tasks, even though we do not specifically collect such
training data.