TTRL: 테스트 시간 강화 학습
TTRL: Test-Time Reinforcement Learning
April 22, 2025
저자: Yuxin Zuo, Kaiyan Zhang, Shang Qu, Li Sheng, Xuekai Zhu, Biqing Qi, Youbang Sun, Ganqu Cui, Ning Ding, Bowen Zhou
cs.AI
초록
본 논문은 대규모 언어 모델(LLM)에서 추론 작업을 위한 명시적인 레이블이 없는 데이터에 대한 강화 학습(Reinforcement Learning, RL)을 연구합니다. 이 문제의 핵심 과제는 추론 과정에서 실제 정답 정보에 접근할 수 없는 상황에서 보상을 추정하는 것입니다. 이러한 설정이 어려워 보이지만, 테스트 시간 스케일링(Test-Time Scaling, TTS)에서의 일반적인 관행(예: 다수결 투표)이 RL 훈련을 이끌기에 적합한 놀라울 정도로 효과적인 보상을 제공한다는 것을 발견했습니다. 본 연구에서는 레이블이 없는 데이터를 사용하여 LLM을 훈련시키는 새로운 방법인 테스트 시간 강화 학습(Test-Time Reinforcement Learning, TTRL)을 소개합니다. TTRL은 사전 훈련된 모델의 사전 지식을 활용하여 LLM의 자기 진화를 가능하게 합니다. 우리의 실험 결과는 TTRL이 다양한 작업과 모델에서 일관되게 성능을 향상시킨다는 것을 보여줍니다. 특히, TTRL은 레이블이 없는 테스트 데이터만을 사용하여 AIME 2024에서 Qwen-2.5-Math-7B의 pass@1 성능을 약 159% 향상시켰습니다. 더욱이, TTRL은 Maj@N 메트릭만으로 지도되었음에도 불구하고 초기 모델의 상한선을 일관되게 뛰어넘는 성능을 보였으며, 실제 정답 레이블이 있는 테스트 데이터로 직접 훈련된 모델의 성능에 근접했습니다. 우리의 실험 결과는 TTRL의 일반적인 효과를 검증하며, 더 넓은 작업과 도메인에서의 잠재력을 강조합니다. GitHub: https://github.com/PRIME-RL/TTRL
English
This paper investigates Reinforcement Learning (RL) on data without explicit
labels for reasoning tasks in Large Language Models (LLMs). The core challenge
of the problem is reward estimation during inference while not having access to
ground-truth information. While this setting appears elusive, we find that
common practices in Test-Time Scaling (TTS), such as majority voting, yield
surprisingly effective rewards suitable for driving RL training. In this work,
we introduce Test-Time Reinforcement Learning (TTRL), a novel method for
training LLMs using RL on unlabeled data. TTRL enables self-evolution of LLMs
by utilizing the priors in the pre-trained models. Our experiments demonstrate
that TTRL consistently improves performance across a variety of tasks and
models. Notably, TTRL boosts the pass@1 performance of Qwen-2.5-Math-7B by
approximately 159% on the AIME 2024 with only unlabeled test data. Furthermore,
although TTRL is only supervised by the Maj@N metric, TTRL has demonstrated
performance to consistently surpass the upper limit of the initial model, and
approach the performance of models trained directly on test data with
ground-truth labels. Our experimental findings validate the general
effectiveness of TTRL across various tasks, and highlight TTRL's potential for
broader tasks and domains. GitHub: https://github.com/PRIME-RL/TTRLSummary
AI-Generated Summary