Reasoning Cache: Kontinuierliche Verbesserung über lange Zeithorizonte durch kurzzeitige RL.

papers.abstract

Große Sprachmodelle (LLMs), die sich kontinuierlich über ihre Trainingsbudgets hinaus verbessern können, sind in der Lage, zunehmend schwierige Probleme durch Anpassung zur Testzeit zu lösen – eine Eigenschaft, die wir als Extrapolation bezeichnen. Standardmäßiges Bestärkendes Lernen (RL) operiert jedoch über feste Problemverteilungen und Trainingsbudgets, was die Extrapolation bei Verteilungsverschiebung zur Testzeit einschränkt. Um dies zu adressieren, führen wir RC ein, einen iterativen Decodierungsalgorithmus, der die standardmäßige autoregressive Decodierung sowohl während des Trainings als auch während der Inferenz ersetzt. RC nutzt eine Asymmetrie zwischen den Antwortgenerierungs- und Zusammenfassungsfähigkeiten von LLMs aus, um Reasoning-Ketten zu konstruieren, die sich über Iterationen hinweg konsistent verbessern. Modelle, die darauf trainiert wurden, RC zu verwenden, können extrapolieren und sich kontinuierlich über Reasoning-Horizonte verbessern, die mehr als eine Größenordnung länger sind als jene, die während des Trainings gesehen wurden. Empirisch verbessert das Training eines 4B-Modells mit RC unter Verwendung eines 16k-Token-Trainingsbudgets die Leistung auf HMMT 2025 von 40 % auf nahezu 70 % mit 0,5 Mio. Tokens zur Testzeit, womit es sowohl vergleichbar große Modelle als auch viele größere Reasoning-LLMs übertrifft. Schließlich zeigen wir auch, dass mit RC trainierte Modelle vorhandene Gerüste effektiver nutzen können, um die Testzeitleistung weiter zu skalieren, aufgrund der durch das Training erlernten verbesserten zusammenfassungsbedingten Generierungsfähigkeiten.

English

Large Language Models (LLMs) that can continually improve beyond their training budgets are able to solve increasingly difficult problems by adapting at test time, a property we refer to as extrapolation. However, standard reinforcement learning (RL) operates over fixed problem distributions and training budgets, which limits extrapolation amidst distribution shift at test time. To address this, we introduce RC, an iterative decoding algorithm that replaces standard autoregressive decoding during both training and inference. RC exploits an asymmetry between the response generation and summarization capabilities of LLMs to construct reasoning chains that consistently improve across iterations. Models trained to use RC can extrapolate and continually improve over reasoning horizons more than an order of magnitude longer than those seen during training. Empirically, training a 4B model with RC using a 16k-token training budget improves performance on HMMT 2025 from 40% to nearly 70% with 0.5m tokens at test time, outperforming both comparably sized models and many larger reasoning LLMs. Finally, we also show that models trained with RC can more effectively leverage existing scaffolds to further scale test-time performance, due to the improved summary-conditioned generation abilities learned through training.

Reasoning Cache: Kontinuierliche Verbesserung über lange Zeithorizonte durch kurzzeitige RL.

Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL

papers.abstract

Support