Modelos de Lenguaje de Autorecompensa Temporal: Desacoplando lo Elegido-Rechazado a través del Pasado-Futuro
Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future
August 8, 2025
Autores: Yidong Wang, Xin Wang, Cunxiang Wang, Junfeng Fang, Qiufeng Wang, Jianing Chu, Xuran Meng, Shuxun Yang, Libo Qin, Yue Zhang, Wei Ye, Shikun Zhang
cs.AI
Resumen
Los Modelos de Lenguaje Autorecompensados proponen una arquitectura en la que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) no solo generan respuestas, sino que también evalúan sus propias salidas mediante el enfoque de LLM-como-Juez, mejorando dinámicamente sus capacidades generativas a través de la Optimización Directa de Preferencias (DPO, por sus siglas en inglés) iterativa. Sin embargo, nuestro análisis revela una limitación crítica en los paradigmas existentes de Autorecompensa: la mejora sincronizada de las respuestas elegidas y rechazadas reduce progresivamente la diferencia representativa entre muestras contrastantes, socavando el aprendizaje efectivo de preferencias. Proponemos los Modelos de Lenguaje Autorecompensados Temporales, que coordinan estratégicamente las generaciones pasadas, presentes y futuras del modelo para mantener las señales de aprendizaje. Nuestro marco de doble fase introduce: (1) Rechazo Anclado - fijando las respuestas rechazadas utilizando las salidas del modelo inicial pasado, y (2) Elección Guiada por el Futuro - seleccionando dinámicamente muestras elegidas utilizando predicciones del modelo de próxima generación. Experimentos extensos en tres familias de modelos (Llama, Qwen, Mistral) y diferentes tamaños de modelos (Llama3B/8B/70B) demuestran mejoras significativas al entrenar con nuestro método en comparación con la Autorecompensa utilizando los mismos recursos computacionales. Por ejemplo, Llama3.1-8B alcanza una tasa de victoria de 29.44 en AlpacaEval 2.0 con nuestro método, superando la línea base de Autorecompensa (19.69) por 9.75. Notablemente, nuestro método también demuestra una generalización superior fuera de distribución en tareas de razonamiento matemático (GSM8K), preguntas basadas en conocimiento (ARC, TruthfulQA) y generación de código (HumanEval), a pesar de no recopilar específicamente datos de entrenamiento para tales tareas.
English
Self-Rewarding Language Models propose an architecture in which the Large
Language Models(LLMs) both generates responses and evaluates its own outputs
via LLM-as-a-Judge prompting, dynamically improving its generative capabilities
through iterative Direct Preference Optimization (DPO). However, our analysis
reveals a critical limitation in existing Self-Rewarding paradigms: the
synchronized improvement of chosen and rejected responses progressively narrows
the representational difference between contrasting samples, undermining
effective preference learning. We propose Temporal Self-Rewarding
Language Models that strategically coordinate past, present, and future model
generations to sustain learning signals. Our dual-phase framework introduces:
(1) Anchored Rejection - fixing rejected responses using the past
initial model's outputs and (2) Future-Guided Chosen - dynamically
curating chosen samples using next-generation model predictions. Extensive
experiments across three model families (Llama, Qwen, Mistral) and different
model sizes (Llama3B/8B/70B) demonstrate significant improvements when trained
with our method compared to Self-Rewarding using same computation resources.
For example, Llama3.1-8B reaches a 29.44 win rate on AlpacaEval 2.0 with our
method, outperforming the Self-Rewarding baseline (19.69) by 9.75. Notably, our
method also demonstrates superior out-of-distribution generalization across
mathematical reasoning (GSM8K), knowledge-based QA (ARC, TruthfulQA), and code
generation (HumanEval) tasks, even though we do not specifically collect such
training data.