Cache de Raciocínio: Melhoria Contínua em Longos Horizontes via RL de Curto Prazo

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) capazes de melhorar continuamente para além dos seus orçamentos de treinamento conseguem resolver problemas cada vez mais difíceis através da adaptação no momento do teste, uma propriedade que designamos por extrapolação. No entanto, o Reforço de Aprendizagem (RL) padrão opera sobre distribuições de problemas e orçamentos de treinamento fixos, o que limita a extrapolação perante uma mudança de distribuição no momento do teste. Para resolver isto, introduzimos o RC, um algoritmo de descodificação iterativa que substitui a descodificação autoregressiva padrão, tanto durante o treinamento como durante a inferência. O RC explora uma assimetria entre as capacidades de geração de respostas e de sumarização dos LLMs para construir cadeias de raciocínio que melhoram consistentemente ao longo das iterações. Os modelos treinados para usar o RC podem extrapolar e melhorar continuamente ao longo de horizontes de raciocínio mais de uma ordem de magnitude maiores do que os observados durante o treinamento. Empiricamente, treinar um modelo de 4B com RC usando um orçamento de treinamento de 16k *tokens* melhora o desempenho no HMMT 2025 de 40% para quase 70% com 0,5 milhões de *tokens* no momento do teste, superando tanto modelos de tamanho comparável como muitos LLMs de raciocínio maiores. Por fim, também mostramos que os modelos treinados com RC podem aproveitar mais eficazmente os *scaffolds* existentes para escalar ainda mais o desempenho no momento do teste, devido às capacidades melhoradas de geração condicionada por sumários aprendidas através do treinamento.

English

Large Language Models (LLMs) that can continually improve beyond their training budgets are able to solve increasingly difficult problems by adapting at test time, a property we refer to as extrapolation. However, standard reinforcement learning (RL) operates over fixed problem distributions and training budgets, which limits extrapolation amidst distribution shift at test time. To address this, we introduce RC, an iterative decoding algorithm that replaces standard autoregressive decoding during both training and inference. RC exploits an asymmetry between the response generation and summarization capabilities of LLMs to construct reasoning chains that consistently improve across iterations. Models trained to use RC can extrapolate and continually improve over reasoning horizons more than an order of magnitude longer than those seen during training. Empirically, training a 4B model with RC using a 16k-token training budget improves performance on HMMT 2025 from 40% to nearly 70% with 0.5m tokens at test time, outperforming both comparably sized models and many larger reasoning LLMs. Finally, we also show that models trained with RC can more effectively leverage existing scaffolds to further scale test-time performance, due to the improved summary-conditioned generation abilities learned through training.

Cache de Raciocínio: Melhoria Contínua em Longos Horizontes via RL de Curto Prazo

Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL

Resumo

Support