Кэш рассуждений: непрерывное улучшение на длинных горизонтах с помощью RL на коротких горизонтах

Аннотация

Крупные языковые модели (LLMs), способные к непрерывному совершенствованию за пределами своих обучающих бюджетов, могут решать все более сложные задачи благодаря адаптации во время тестирования — свойству, которое мы называем экстраполяцией. Однако стандартное обучение с подкреплением (RL) оперирует фиксированными распределениями задач и обучающими бюджетами, что ограничивает экстраполяцию при наличии сдвига распределения во время тестирования. Чтобы решить эту проблему, мы представляем RC — итеративный алгоритм декодирования, который заменяет стандартное авторегрессивное декодирование как на этапе обучения, так и на этапе вывода. RC использует асимметрию между способностями LLM к генерации ответов и суммаризации для построения цепочек рассуждений, которые последовательно улучшаются от итерации к итерации. Модели, обученные использованию RC, способны к экстраполяции и непрерывному улучшению на горизонтах рассуждений, более чем на порядок превышающих те, что наблюдались во время обучения. Эмпирически, обучение модели объемом 4B параметров с использованием RC при обучающем бюджете в 16 тыс. токенов повышает результат на задачах HMMT 2025 с 40% до почти 70% при использовании 0,5 млн токенов во время тестирования, превосходя как модели сопоставимого размера, так и многие более крупные LLM, ориентированные на рассуждения. Наконец, мы также показываем, что модели, обученные с RC, могут эффективнее использовать существующие каркасы (scaffolds) для дальнейшего масштабирования производительности во время тестирования благодаря улучшенным способностям к генерации, обусловленной суммаризацией, которые приобретаются в процессе обучения.

English

Large Language Models (LLMs) that can continually improve beyond their training budgets are able to solve increasingly difficult problems by adapting at test time, a property we refer to as extrapolation. However, standard reinforcement learning (RL) operates over fixed problem distributions and training budgets, which limits extrapolation amidst distribution shift at test time. To address this, we introduce RC, an iterative decoding algorithm that replaces standard autoregressive decoding during both training and inference. RC exploits an asymmetry between the response generation and summarization capabilities of LLMs to construct reasoning chains that consistently improve across iterations. Models trained to use RC can extrapolate and continually improve over reasoning horizons more than an order of magnitude longer than those seen during training. Empirically, training a 4B model with RC using a 16k-token training budget improves performance on HMMT 2025 from 40% to nearly 70% with 0.5m tokens at test time, outperforming both comparably sized models and many larger reasoning LLMs. Finally, we also show that models trained with RC can more effectively leverage existing scaffolds to further scale test-time performance, due to the improved summary-conditioned generation abilities learned through training.

Кэш рассуждений: непрерывное улучшение на длинных горизонтах с помощью RL на коротких горизонтах

Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL

Аннотация

Support