Modelli Linguistici di Auto-Ricompensa Temporale: Disaccoppiamento Scelto-Rifiutato tramite Passato-Futuro
Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future
August 8, 2025
Autori: Yidong Wang, Xin Wang, Cunxiang Wang, Junfeng Fang, Qiufeng Wang, Jianing Chu, Xuran Meng, Shuxun Yang, Libo Qin, Yue Zhang, Wei Ye, Shikun Zhang
cs.AI
Abstract
I Modelli Linguistici Auto-Ricompensanti propongono un'architettura in cui i Modelli Linguistici di Grande Dimensione (LLM) generano risposte e valutano i propri output tramite il prompting LLM-as-a-Judge, migliorando dinamicamente le proprie capacità generative attraverso un'ottimizzazione iterativa delle preferenze dirette (DPO). Tuttavia, la nostra analisi rivela una limitazione critica nei paradigmi Auto-Ricompensanti esistenti: il miglioramento sincronizzato delle risposte scelte e rifiutate riduce progressivamente la differenza rappresentativa tra i campioni contrastanti, compromettendo l'apprendimento efficace delle preferenze. Proponiamo Modelli Linguistici Auto-Ricompensanti Temporali che coordinano strategicamente le generazioni passate, presenti e future del modello per mantenere i segnali di apprendimento. Il nostro framework a doppia fase introduce: (1) Rifiuto Ancorato - fissando le risposte rifiutate utilizzando gli output del modello iniziale passato e (2) Scelta Guidata dal Futuro - curando dinamicamente i campioni scelti utilizzando le previsioni del modello di prossima generazione. Esperimenti estesi su tre famiglie di modelli (Llama, Qwen, Mistral) e diverse dimensioni di modello (Llama3B/8B/70B) dimostrano miglioramenti significativi quando addestrati con il nostro metodo rispetto all'approccio Auto-Ricompensante utilizzando le stesse risorse computazionali. Ad esempio, Llama3.1-8B raggiunge un tasso di vittoria del 29.44 su AlpacaEval 2.0 con il nostro metodo, superando il baseline Auto-Ricompensante (19.69) di 9.75. Inoltre, il nostro metodo dimostra una generalizzazione superiore fuori distribuzione in compiti di ragionamento matematico (GSM8K), domande basate sulla conoscenza (ARC, TruthfulQA) e generazione di codice (HumanEval), nonostante non raccogliamo specificamente dati di addestramento per tali compiti.
English
Self-Rewarding Language Models propose an architecture in which the Large
Language Models(LLMs) both generates responses and evaluates its own outputs
via LLM-as-a-Judge prompting, dynamically improving its generative capabilities
through iterative Direct Preference Optimization (DPO). However, our analysis
reveals a critical limitation in existing Self-Rewarding paradigms: the
synchronized improvement of chosen and rejected responses progressively narrows
the representational difference between contrasting samples, undermining
effective preference learning. We propose Temporal Self-Rewarding
Language Models that strategically coordinate past, present, and future model
generations to sustain learning signals. Our dual-phase framework introduces:
(1) Anchored Rejection - fixing rejected responses using the past
initial model's outputs and (2) Future-Guided Chosen - dynamically
curating chosen samples using next-generation model predictions. Extensive
experiments across three model families (Llama, Qwen, Mistral) and different
model sizes (Llama3B/8B/70B) demonstrate significant improvements when trained
with our method compared to Self-Rewarding using same computation resources.
For example, Llama3.1-8B reaches a 29.44 win rate on AlpacaEval 2.0 with our
method, outperforming the Self-Rewarding baseline (19.69) by 9.75. Notably, our
method also demonstrates superior out-of-distribution generalization across
mathematical reasoning (GSM8K), knowledge-based QA (ARC, TruthfulQA), and code
generation (HumanEval) tasks, even though we do not specifically collect such
training data.