ChatPaper.aiChatPaper

추론 캐시: 단기 수평 강화학습을 통한 장기 수평의 지속적 개선

Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL

February 3, 2026
저자: Ian Wu, Yuxiao Qu, Amrith Setlur, Aviral Kumar
cs.AI

초록

훈련 예산을 초월하여 지속적으로 향상될 수 있는 거대 언어 모델(LLM)은 테스트 시점에 적응함으로써 점점 더 어려운 문제를 해결할 수 있는데, 우리는 이러한 특성을 외삽(extrapolation)이라고 부른다. 그러나 표준 강화 학습(RL)은 고정된 문제 분포와 훈련 예산 내에서 운영되므로, 테스트 시점의 분포 변화 속에서 외삽 능력이 제한된다. 이를 해결하기 위해 우리는 훈련 및 추론 과정에서 표준 자기회귀 디코딩을 대체하는 반복적 디코딩 알고리즘인 RC를 제안한다. RC는 LLM의 응답 생성 능력과 요약 능력 간 비대칭성을 활용하여 반복을 거듭할수록 일관적으로 향상되는 추론 체인을 구성한다. RC 사용법을 훈련받은 모델은 훈련 과정에서 접했던 것보다 한 차례 이상 긴 추론 범위에서도 외삽 및 지속적 향상이 가능하다. 실증적으로, 16k 토큰의 훈련 예산으로 4B 모델을 RC와 함께 훈련시켰을 때, 테스트 시점에 0.5백만 토큰을 사용하여 HMMT 2025에서의 성능을 40%에서 약 70%로 향상시켰으며, 이는 유사 규모 모델과 많은 대형 추론 LLM들을 모두 능가하는 결과이다. 마지막으로, RC로 훈련된 모델은 훈련을 통해 습득된 향상된 요약-조건부 생성 능력 덕분에 기존 스캐폴드를 더 효과적으로 활용하여 테스트 시점 성능을 추가로 확장할 수 있음을 보여준다.
English
Large Language Models (LLMs) that can continually improve beyond their training budgets are able to solve increasingly difficult problems by adapting at test time, a property we refer to as extrapolation. However, standard reinforcement learning (RL) operates over fixed problem distributions and training budgets, which limits extrapolation amidst distribution shift at test time. To address this, we introduce RC, an iterative decoding algorithm that replaces standard autoregressive decoding during both training and inference. RC exploits an asymmetry between the response generation and summarization capabilities of LLMs to construct reasoning chains that consistently improve across iterations. Models trained to use RC can extrapolate and continually improve over reasoning horizons more than an order of magnitude longer than those seen during training. Empirically, training a 4B model with RC using a 16k-token training budget improves performance on HMMT 2025 from 40% to nearly 70% with 0.5m tokens at test time, outperforming both comparably sized models and many larger reasoning LLMs. Finally, we also show that models trained with RC can more effectively leverage existing scaffolds to further scale test-time performance, due to the improved summary-conditioned generation abilities learned through training.
PDF22February 13, 2026