Modelos de Linguagem de Autorrecompensa Temporal: Desacoplando Escolha-Rejeição via Passado-Futuro
Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future
August 8, 2025
Autores: Yidong Wang, Xin Wang, Cunxiang Wang, Junfeng Fang, Qiufeng Wang, Jianing Chu, Xuran Meng, Shuxun Yang, Libo Qin, Yue Zhang, Wei Ye, Shikun Zhang
cs.AI
Resumo
Os Modelos de Linguagem de Autorrecompensa propõem uma arquitetura na qual os Modelos de Linguagem de Grande Escala (LLMs) tanto geram respostas quanto avaliam suas próprias saídas por meio de prompts LLM-as-a-Judge, melhorando dinamicamente suas capacidades gerativas através de uma Otimização Direta de Preferência (DPO) iterativa. No entanto, nossa análise revela uma limitação crítica nos paradigmas existentes de Autorrecompensa: a melhoria sincronizada das respostas escolhidas e rejeitadas reduz progressivamente a diferença representacional entre amostras contrastantes, prejudicando o aprendizado eficaz de preferências. Propomos Modelos de Linguagem de Autorrecompensa Temporal que coordenam estrategicamente gerações passadas, presentes e futuras do modelo para sustentar sinais de aprendizado. Nosso framework de dupla fase introduz: (1) Rejeição Ancorada - fixando respostas rejeitadas usando as saídas do modelo inicial do passado e (2) Escolha Guiada pelo Futuro - selecionando dinamicamente amostras escolhidas usando previsões do modelo de próxima geração. Experimentos extensos em três famílias de modelos (Llama, Qwen, Mistral) e diferentes tamanhos de modelos (Llama3B/8B/70B) demonstram melhorias significativas quando treinados com nosso método em comparação com Autorrecompensa usando os mesmos recursos computacionais. Por exemplo, o Llama3.1-8B alcança uma taxa de vitória de 29,44 no AlpacaEval 2.0 com nosso método, superando a linha de base de Autorrecompensa (19,69) em 9,75. Notavelmente, nosso método também demonstra generalização superior fora da distribuição em tarefas de raciocínio matemático (GSM8K), perguntas e respostas baseadas em conhecimento (ARC, TruthfulQA) e geração de código (HumanEval), mesmo sem coletar especificamente dados de treinamento para tais tarefas.
English
Self-Rewarding Language Models propose an architecture in which the Large
Language Models(LLMs) both generates responses and evaluates its own outputs
via LLM-as-a-Judge prompting, dynamically improving its generative capabilities
through iterative Direct Preference Optimization (DPO). However, our analysis
reveals a critical limitation in existing Self-Rewarding paradigms: the
synchronized improvement of chosen and rejected responses progressively narrows
the representational difference between contrasting samples, undermining
effective preference learning. We propose Temporal Self-Rewarding
Language Models that strategically coordinate past, present, and future model
generations to sustain learning signals. Our dual-phase framework introduces:
(1) Anchored Rejection - fixing rejected responses using the past
initial model's outputs and (2) Future-Guided Chosen - dynamically
curating chosen samples using next-generation model predictions. Extensive
experiments across three model families (Llama, Qwen, Mistral) and different
model sizes (Llama3B/8B/70B) demonstrate significant improvements when trained
with our method compared to Self-Rewarding using same computation resources.
For example, Llama3.1-8B reaches a 29.44 win rate on AlpacaEval 2.0 with our
method, outperforming the Self-Rewarding baseline (19.69) by 9.75. Notably, our
method also demonstrates superior out-of-distribution generalization across
mathematical reasoning (GSM8K), knowledge-based QA (ARC, TruthfulQA), and code
generation (HumanEval) tasks, even though we do not specifically collect such
training data.