Cache di Ragionamento: Miglioramento Continuo su Orizzonti Lunghi tramite RL a Breve Orizzonte

Abstract

I modelli linguistici di grandi dimensioni (LLM) in grado di migliorare continuamente oltre i propri budget di addestramento possono risolvere problemi sempre più difficili adattandosi al momento del test, una proprietà che definiamo estrapolazione. Tuttavia, l'apprendimento per rinforzo (RL) standard opera su distribuzioni di problemi e budget di addestramento fissi, il che limita l'estrapolazione in presenza di uno spostamento della distribuzione al momento del test. Per affrontare questo problema, introduciamo RC, un algoritmo di decodifica iterativa che sostituisce la decodifica autoregressiva standard sia durante l'addestramento che durante l'inferenza. RC sfrutta un'asimmetria tra le capacità di generazione di risposte e di riepilogo degli LLM per costruire catene di ragionamento che migliorano costantemente attraverso le iterazioni. I modelli addestrati a utilizzare RC possono estrapolare e migliorare continuamente su orizzonti di ragionamento più lunghi di oltre un ordine di grandezza rispetto a quelli osservati durante l'addestramento. Empiricamente, l'addestramento di un modello da 4B con RC utilizzando un budget di addestramento di 16k token migliora le prestazioni su HMMT 2025 dal 40% a quasi il 70% con 0,5 milioni di token al momento del test, superando sia modelli di dimensioni comparabili che molti LLM di ragionamento più grandi. Infine, mostriamo anche che i modelli addestrati con RC possono sfruttare più efficacemente gli scaffold esistenti per scalare ulteriormente le prestazioni al momento del test, grazie alle migliori capacità di generazione condizionata al riepilogo apprese durante l'addestramento.

English

Large Language Models (LLMs) that can continually improve beyond their training budgets are able to solve increasingly difficult problems by adapting at test time, a property we refer to as extrapolation. However, standard reinforcement learning (RL) operates over fixed problem distributions and training budgets, which limits extrapolation amidst distribution shift at test time. To address this, we introduce RC, an iterative decoding algorithm that replaces standard autoregressive decoding during both training and inference. RC exploits an asymmetry between the response generation and summarization capabilities of LLMs to construct reasoning chains that consistently improve across iterations. Models trained to use RC can extrapolate and continually improve over reasoning horizons more than an order of magnitude longer than those seen during training. Empirically, training a 4B model with RC using a 16k-token training budget improves performance on HMMT 2025 from 40% to nearly 70% with 0.5m tokens at test time, outperforming both comparably sized models and many larger reasoning LLMs. Finally, we also show that models trained with RC can more effectively leverage existing scaffolds to further scale test-time performance, due to the improved summary-conditioned generation abilities learned through training.

Cache di Ragionamento: Miglioramento Continuo su Orizzonti Lunghi tramite RL a Breve Orizzonte

Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL

Abstract

Support