Temporale Selbstbelohnungssprachmodelle: Entkopplung von Ausgewählt-Abgelehnt durch Vergangenheit-Zukunft

papers.abstract

Self-Rewarding Language Models schlagen eine Architektur vor, in der große Sprachmodelle (LLMs) sowohl Antworten generieren als auch ihre eigenen Ausgaben über LLM-as-a-Judge-Prompting bewerten und so ihre generativen Fähigkeiten durch iterative Direct Preference Optimization (DPO) dynamisch verbessern. Unsere Analyse zeigt jedoch eine kritische Einschränkung in bestehenden Self-Rewarding-Paradigmen: Die synchronisierte Verbesserung von ausgewählten und abgelehnten Antworten verringert schrittweise den repräsentativen Unterschied zwischen kontrastierenden Beispielen, was effektives Präferenzlernen untergräbt. Wir schlagen Temporale Self-Rewarding Language Models vor, die strategisch vergangene, gegenwärtige und zukünftige Modellgenerationen koordinieren, um Lernsignale aufrechtzuerhalten. Unser zweiphasiges Framework führt ein: (1) Anchored Rejection – das Fixieren abgelehnter Antworten mithilfe der Ausgaben des anfänglichen Modells aus der Vergangenheit und (2) Future-Guided Chosen – das dynamische Kuratieren ausgewählter Beispiele mithilfe von Vorhersagen des nächsten Modellgenerationsschritts. Umfangreiche Experimente über drei Modellfamilien (Llama, Qwen, Mistral) und verschiedene Modellgrößen (Llama3B/8B/70B) zeigen signifikante Verbesserungen, wenn mit unserer Methode trainiert wird, im Vergleich zu Self-Rewarding unter Verwendung der gleichen Rechenressourcen. Beispielsweise erreicht Llama3.1-8B mit unserer Methode eine Win Rate von 29,44 auf AlpacaEval 2.0 und übertrifft damit die Self-Rewarding-Baseline (19,69) um 9,75. Bemerkenswerterweise zeigt unsere Methode auch eine überlegene Out-of-Distribution-Generalisierung über mathematisches Denken (GSM8K), wissensbasierte Frage-Antwort-Systeme (ARC, TruthfulQA) und Code-Generierung (HumanEval) hinweg, obwohl wir keine spezifischen Trainingsdaten für diese Bereiche sammeln.

English

Self-Rewarding Language Models propose an architecture in which the Large Language Models(LLMs) both generates responses and evaluates its own outputs via LLM-as-a-Judge prompting, dynamically improving its generative capabilities through iterative Direct Preference Optimization (DPO). However, our analysis reveals a critical limitation in existing Self-Rewarding paradigms: the synchronized improvement of chosen and rejected responses progressively narrows the representational difference between contrasting samples, undermining effective preference learning. We propose Temporal Self-Rewarding Language Models that strategically coordinate past, present, and future model generations to sustain learning signals. Our dual-phase framework introduces: (1) Anchored Rejection - fixing rejected responses using the past initial model's outputs and (2) Future-Guided Chosen - dynamically curating chosen samples using next-generation model predictions. Extensive experiments across three model families (Llama, Qwen, Mistral) and different model sizes (Llama3B/8B/70B) demonstrate significant improvements when trained with our method compared to Self-Rewarding using same computation resources. For example, Llama3.1-8B reaches a 29.44 win rate on AlpacaEval 2.0 with our method, outperforming the Self-Rewarding baseline (19.69) by 9.75. Notably, our method also demonstrates superior out-of-distribution generalization across mathematical reasoning (GSM8K), knowledge-based QA (ARC, TruthfulQA), and code generation (HumanEval) tasks, even though we do not specifically collect such training data.

Temporale Selbstbelohnungssprachmodelle: Entkopplung von Ausgewählt-Abgelehnt durch Vergangenheit-Zukunft

Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future

papers.abstract

Support