TTRL : Apprentissage par renforcement au moment du test
TTRL: Test-Time Reinforcement Learning
April 22, 2025
Auteurs: Yuxin Zuo, Kaiyan Zhang, Shang Qu, Li Sheng, Xuekai Zhu, Biqing Qi, Youbang Sun, Ganqu Cui, Ning Ding, Bowen Zhou
cs.AI
Résumé
Cet article explore l'apprentissage par renforcement (Reinforcement Learning, RL) sur des données sans étiquettes explicites pour des tâches de raisonnement dans les grands modèles de langage (Large Language Models, LLMs). Le défi central de ce problème réside dans l'estimation des récompenses lors de l'inférence, sans accès à des informations de référence. Bien que ce contexte semble complexe, nous constatons que les pratiques courantes dans le redimensionnement au moment du test (Test-Time Scaling, TTS), telles que le vote majoritaire, produisent des récompenses étonnamment efficaces pour entraîner le RL. Dans ce travail, nous introduisons l'apprentissage par renforcement au moment du test (Test-Time Reinforcement Learning, TTRL), une méthode novatrice pour entraîner les LLMs en utilisant le RL sur des données non étiquetées. TTRL permet l'auto-évolution des LLMs en exploitant les connaissances préalables des modèles pré-entraînés. Nos expériences démontrent que TTRL améliore systématiquement les performances sur une variété de tâches et de modèles. Notamment, TTRL augmente la performance pass@1 de Qwen-2.5-Math-7B d'environ 159 % sur l'AIME 2024 en utilisant uniquement des données de test non étiquetées. De plus, bien que TTRL ne soit supervisé que par la métrique Maj@N, il a montré une capacité à dépasser systématiquement la limite supérieure du modèle initial et à approcher les performances des modèles entraînés directement sur des données de test avec des étiquettes de référence. Nos résultats expérimentaux valident l'efficacité générale de TTRL sur diverses tâches et mettent en lumière son potentiel pour des tâches et domaines plus larges. GitHub : https://github.com/PRIME-RL/TTRL
English
This paper investigates Reinforcement Learning (RL) on data without explicit
labels for reasoning tasks in Large Language Models (LLMs). The core challenge
of the problem is reward estimation during inference while not having access to
ground-truth information. While this setting appears elusive, we find that
common practices in Test-Time Scaling (TTS), such as majority voting, yield
surprisingly effective rewards suitable for driving RL training. In this work,
we introduce Test-Time Reinforcement Learning (TTRL), a novel method for
training LLMs using RL on unlabeled data. TTRL enables self-evolution of LLMs
by utilizing the priors in the pre-trained models. Our experiments demonstrate
that TTRL consistently improves performance across a variety of tasks and
models. Notably, TTRL boosts the pass@1 performance of Qwen-2.5-Math-7B by
approximately 159% on the AIME 2024 with only unlabeled test data. Furthermore,
although TTRL is only supervised by the Maj@N metric, TTRL has demonstrated
performance to consistently surpass the upper limit of the initial model, and
approach the performance of models trained directly on test data with
ground-truth labels. Our experimental findings validate the general
effectiveness of TTRL across various tasks, and highlight TTRL's potential for
broader tasks and domains. GitHub: https://github.com/PRIME-RL/TTRLSummary
AI-Generated Summary