TTRL: Aprendizaje por Refuerzo en Tiempo de Prueba
TTRL: Test-Time Reinforcement Learning
April 22, 2025
Autores: Yuxin Zuo, Kaiyan Zhang, Shang Qu, Li Sheng, Xuekai Zhu, Biqing Qi, Youbang Sun, Ganqu Cui, Ning Ding, Bowen Zhou
cs.AI
Resumen
Este artículo investiga el Aprendizaje por Refuerzo (RL, por sus siglas en inglés) en datos sin etiquetas explícitas para tareas de razonamiento en Modelos de Lenguaje a Gran Escala (LLMs). El desafío central del problema es la estimación de recompensas durante la inferencia sin tener acceso a información de referencia. Aunque este escenario parece elusivo, encontramos que prácticas comunes en Escalado en Tiempo de Prueba (TTS), como la votación por mayoría, generan recompensas sorprendentemente efectivas adecuadas para impulsar el entrenamiento de RL. En este trabajo, presentamos Aprendizaje por Refuerzo en Tiempo de Prueba (TTRL), un método novedoso para entrenar LLMs utilizando RL en datos no etiquetados. TTRL permite la auto-evolución de los LLMs al utilizar los conocimientos previos en los modelos preentrenados. Nuestros experimentos demuestran que TTRL mejora consistentemente el rendimiento en una variedad de tareas y modelos. Notablemente, TTRL incrementa el rendimiento pass@1 de Qwen-2.5-Math-7B en aproximadamente un 159% en el AIME 2024 utilizando únicamente datos de prueba no etiquetados. Además, aunque TTRL solo está supervisado por la métrica Maj@N, ha demostrado un rendimiento que supera consistentemente el límite superior del modelo inicial y se acerca al rendimiento de modelos entrenados directamente en datos de prueba con etiquetas de referencia. Nuestros hallazgos experimentales validan la efectividad general de TTRL en diversas tareas y destacan su potencial para tareas y dominios más amplios. GitHub: https://github.com/PRIME-RL/TTRL
English
This paper investigates Reinforcement Learning (RL) on data without explicit
labels for reasoning tasks in Large Language Models (LLMs). The core challenge
of the problem is reward estimation during inference while not having access to
ground-truth information. While this setting appears elusive, we find that
common practices in Test-Time Scaling (TTS), such as majority voting, yield
surprisingly effective rewards suitable for driving RL training. In this work,
we introduce Test-Time Reinforcement Learning (TTRL), a novel method for
training LLMs using RL on unlabeled data. TTRL enables self-evolution of LLMs
by utilizing the priors in the pre-trained models. Our experiments demonstrate
that TTRL consistently improves performance across a variety of tasks and
models. Notably, TTRL boosts the pass@1 performance of Qwen-2.5-Math-7B by
approximately 159% on the AIME 2024 with only unlabeled test data. Furthermore,
although TTRL is only supervised by the Maj@N metric, TTRL has demonstrated
performance to consistently surpass the upper limit of the initial model, and
approach the performance of models trained directly on test data with
ground-truth labels. Our experimental findings validate the general
effectiveness of TTRL across various tasks, and highlight TTRL's potential for
broader tasks and domains. GitHub: https://github.com/PRIME-RL/TTRLSummary
AI-Generated Summary