ChatPaper.aiChatPaper

TTRL: Testzeit-Verstärkungslernen

TTRL: Test-Time Reinforcement Learning

April 22, 2025
Autoren: Yuxin Zuo, Kaiyan Zhang, Shang Qu, Li Sheng, Xuekai Zhu, Biqing Qi, Youbang Sun, Ganqu Cui, Ning Ding, Bowen Zhou
cs.AI

Zusammenfassung

Diese Arbeit untersucht Reinforcement Learning (RL) auf Daten ohne explizite Labels für Reasoning-Aufgaben in Large Language Models (LLMs). Die zentrale Herausforderung des Problems besteht in der Schätzung der Belohnung während der Inferenz, ohne Zugriff auf Ground-Truth-Informationen zu haben. Obwohl diese Konstellation zunächst schwer fassbar erscheint, stellen wir fest, dass gängige Praktiken im Test-Time Scaling (TTS), wie z.B. Mehrheitsabstimmung, überraschend effektive Belohnungen liefern, die sich für das RL-Training eignen. In dieser Arbeit führen wir Test-Time Reinforcement Learning (TTRL) ein, eine neuartige Methode zum Training von LLMs mittels RL auf ungelabelten Daten. TTRL ermöglicht die Selbstentwicklung von LLMs durch die Nutzung der Prioritäten in den vortrainierten Modellen. Unsere Experimente zeigen, dass TTRL die Leistung über eine Vielzahl von Aufgaben und Modellen hinweg kontinuierlich verbessert. Besonders hervorzuheben ist, dass TTRL die pass@1-Leistung von Qwen-2.5-Math-7B auf dem AIME 2024 um etwa 159% steigert, wobei nur ungelabelte Testdaten verwendet werden. Darüber hinaus hat TTRL, obwohl es nur durch das Maj@N-Metrik überwacht wird, gezeigt, dass es die Leistung kontinuierlich über die Obergrenze des Ausgangsmodells hinaus steigern und sich der Leistung von Modellen annähern kann, die direkt auf Testdaten mit Ground-Truth-Labels trainiert wurden. Unsere experimentellen Ergebnisse bestätigen die allgemeine Wirksamkeit von TTRL über verschiedene Aufgaben hinweg und unterstreichen das Potenzial von TTRL für breitere Aufgaben und Domänen. GitHub: https://github.com/PRIME-RL/TTRL
English
This paper investigates Reinforcement Learning (RL) on data without explicit labels for reasoning tasks in Large Language Models (LLMs). The core challenge of the problem is reward estimation during inference while not having access to ground-truth information. While this setting appears elusive, we find that common practices in Test-Time Scaling (TTS), such as majority voting, yield surprisingly effective rewards suitable for driving RL training. In this work, we introduce Test-Time Reinforcement Learning (TTRL), a novel method for training LLMs using RL on unlabeled data. TTRL enables self-evolution of LLMs by utilizing the priors in the pre-trained models. Our experiments demonstrate that TTRL consistently improves performance across a variety of tasks and models. Notably, TTRL boosts the pass@1 performance of Qwen-2.5-Math-7B by approximately 159% on the AIME 2024 with only unlabeled test data. Furthermore, although TTRL is only supervised by the Maj@N metric, TTRL has demonstrated performance to consistently surpass the upper limit of the initial model, and approach the performance of models trained directly on test data with ground-truth labels. Our experimental findings validate the general effectiveness of TTRL across various tasks, and highlight TTRL's potential for broader tasks and domains. GitHub: https://github.com/PRIME-RL/TTRL

Summary

AI-Generated Summary

PDF954April 23, 2025