Tijdelijke Zelfbelonende Taalmodellen: Ontkoppeling van Gekozen-Geweigerd via Verleden-Toekomst

Samenvatting

Self-Rewarding Language Models introduceren een architectuur waarin de Large Language Models (LLM's) zowel reacties genereren als hun eigen uitvoer evalueren via LLM-as-a-Judge prompting, waardoor hun generatieve capaciteiten dynamisch worden verbeterd door middel van iteratieve Direct Preference Optimization (DPO). Onze analyse onthult echter een kritische beperking in bestaande Self-Rewarding paradigma's: de gesynchroniseerde verbetering van gekozen en afgewezen reacties verkleint geleidelijk het representatieverschil tussen contrasterende voorbeelden, wat effectief voorkeursleren ondermijnt. Wij stellen Temporal Self-Rewarding Language Models voor, die strategisch eerdere, huidige en toekomstige modelgeneraties coördineren om leer signalen te behouden. Ons tweefasen framework introduceert: (1) Anchored Rejection - het vastzetten van afgewezen reacties met behulp van de uitvoer van het initiële model uit het verleden, en (2) Future-Guided Chosen - het dynamisch samenstellen van gekozen voorbeelden met behulp van voorspellingen van de volgende generatie modellen. Uitgebreide experimenten over drie modelfamilies (Llama, Qwen, Mistral) en verschillende modelgroottes (Llama3B/8B/70B) tonen significante verbeteringen aan wanneer getraind met onze methode in vergelijking met Self-Rewarding met dezelfde rekenbronnen. Zo bereikt Llama3.1-8B bijvoorbeeld een win rate van 29,44 op AlpacaEval 2.0 met onze methode, wat de Self-Rewarding baseline (19,69) met 9,75 overtreft. Opmerkelijk is dat onze methode ook superieure out-of-distribution generalisatie laat zien over wiskundig redeneren (GSM8K), kennisgebaseerde QA (ARC, TruthfulQA) en codegeneratie (HumanEval) taken, ook al verzamelen we dergelijke trainingsdata niet specifiek.

English

Self-Rewarding Language Models propose an architecture in which the Large Language Models(LLMs) both generates responses and evaluates its own outputs via LLM-as-a-Judge prompting, dynamically improving its generative capabilities through iterative Direct Preference Optimization (DPO). However, our analysis reveals a critical limitation in existing Self-Rewarding paradigms: the synchronized improvement of chosen and rejected responses progressively narrows the representational difference between contrasting samples, undermining effective preference learning. We propose Temporal Self-Rewarding Language Models that strategically coordinate past, present, and future model generations to sustain learning signals. Our dual-phase framework introduces: (1) Anchored Rejection - fixing rejected responses using the past initial model's outputs and (2) Future-Guided Chosen - dynamically curating chosen samples using next-generation model predictions. Extensive experiments across three model families (Llama, Qwen, Mistral) and different model sizes (Llama3B/8B/70B) demonstrate significant improvements when trained with our method compared to Self-Rewarding using same computation resources. For example, Llama3.1-8B reaches a 29.44 win rate on AlpacaEval 2.0 with our method, outperforming the Self-Rewarding baseline (19.69) by 9.75. Notably, our method also demonstrates superior out-of-distribution generalization across mathematical reasoning (GSM8K), knowledge-based QA (ARC, TruthfulQA), and code generation (HumanEval) tasks, even though we do not specifically collect such training data.

Tijdelijke Zelfbelonende Taalmodellen: Ontkoppeling van Gekozen-Geweigerd via Verleden-Toekomst

Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future

Samenvatting

Support