Temporale Selbstbelohnungssprachmodelle: Entkopplung von Ausgewählt-Abgelehnt durch Vergangenheit-Zukunft
Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future
August 8, 2025
papers.authors: Yidong Wang, Xin Wang, Cunxiang Wang, Junfeng Fang, Qiufeng Wang, Jianing Chu, Xuran Meng, Shuxun Yang, Libo Qin, Yue Zhang, Wei Ye, Shikun Zhang
cs.AI
papers.abstract
Self-Rewarding Language Models schlagen eine Architektur vor, in der große Sprachmodelle (LLMs) sowohl Antworten generieren als auch ihre eigenen Ausgaben über LLM-as-a-Judge-Prompting bewerten und so ihre generativen Fähigkeiten durch iterative Direct Preference Optimization (DPO) dynamisch verbessern. Unsere Analyse zeigt jedoch eine kritische Einschränkung in bestehenden Self-Rewarding-Paradigmen: Die synchronisierte Verbesserung von ausgewählten und abgelehnten Antworten verringert schrittweise den repräsentativen Unterschied zwischen kontrastierenden Beispielen, was effektives Präferenzlernen untergräbt. Wir schlagen Temporale Self-Rewarding Language Models vor, die strategisch vergangene, gegenwärtige und zukünftige Modellgenerationen koordinieren, um Lernsignale aufrechtzuerhalten. Unser zweiphasiges Framework führt ein: (1) Anchored Rejection – das Fixieren abgelehnter Antworten mithilfe der Ausgaben des anfänglichen Modells aus der Vergangenheit und (2) Future-Guided Chosen – das dynamische Kuratieren ausgewählter Beispiele mithilfe von Vorhersagen des nächsten Modellgenerationsschritts. Umfangreiche Experimente über drei Modellfamilien (Llama, Qwen, Mistral) und verschiedene Modellgrößen (Llama3B/8B/70B) zeigen signifikante Verbesserungen, wenn mit unserer Methode trainiert wird, im Vergleich zu Self-Rewarding unter Verwendung der gleichen Rechenressourcen. Beispielsweise erreicht Llama3.1-8B mit unserer Methode eine Win Rate von 29,44 auf AlpacaEval 2.0 und übertrifft damit die Self-Rewarding-Baseline (19,69) um 9,75. Bemerkenswerterweise zeigt unsere Methode auch eine überlegene Out-of-Distribution-Generalisierung über mathematisches Denken (GSM8K), wissensbasierte Frage-Antwort-Systeme (ARC, TruthfulQA) und Code-Generierung (HumanEval) hinweg, obwohl wir keine spezifischen Trainingsdaten für diese Bereiche sammeln.
English
Self-Rewarding Language Models propose an architecture in which the Large
Language Models(LLMs) both generates responses and evaluates its own outputs
via LLM-as-a-Judge prompting, dynamically improving its generative capabilities
through iterative Direct Preference Optimization (DPO). However, our analysis
reveals a critical limitation in existing Self-Rewarding paradigms: the
synchronized improvement of chosen and rejected responses progressively narrows
the representational difference between contrasting samples, undermining
effective preference learning. We propose Temporal Self-Rewarding
Language Models that strategically coordinate past, present, and future model
generations to sustain learning signals. Our dual-phase framework introduces:
(1) Anchored Rejection - fixing rejected responses using the past
initial model's outputs and (2) Future-Guided Chosen - dynamically
curating chosen samples using next-generation model predictions. Extensive
experiments across three model families (Llama, Qwen, Mistral) and different
model sizes (Llama3B/8B/70B) demonstrate significant improvements when trained
with our method compared to Self-Rewarding using same computation resources.
For example, Llama3.1-8B reaches a 29.44 win rate on AlpacaEval 2.0 with our
method, outperforming the Self-Rewarding baseline (19.69) by 9.75. Notably, our
method also demonstrates superior out-of-distribution generalization across
mathematical reasoning (GSM8K), knowledge-based QA (ARC, TruthfulQA), and code
generation (HumanEval) tasks, even though we do not specifically collect such
training data.