TEMPO: Scalabilità dell'Addestramento al Momento del Test per Modelli di Ragionamento di Grande Dimensione

Abstract

Il test-time training (TTT) adatta i parametri del modello su istanze di test non etichettate durante l'inferenza, estendendo continuamente le capacità oltre i limiti dell'addestramento offline. Nonostante i progressi iniziali, i metodi TTT esistenti per i Large Reasoning Models (LRM) raggiungono rapidamente un plateau e non traggono vantaggio da risorse computazionali aggiuntive durante il test. Senza una calibrazione esterna, il segnale di ricompensa auto-generato tende a divergere progressivamente con l'evoluzione del modello policy, portando sia a plateau prestazionali che a un collasso della diversità. Proponiamo TEMPO, un framework TTT che alterna l'affinamento della policy su domande non etichettate a periodiche ricalibrazioni del critico su un dataset etichettato. Formalizzando questa procedura alternata attraverso l'algoritmo Expectation-Maximization (EM), dimostriamo che i metodi precedenti possono essere interpretati come varianti incomplete che omettono il cruciale passo di ricalibrazione. Reintrodurre questo passo restringe l'evidence lower bound (ELBO) e consente miglioramenti sostenuti. Attraverso diverse famiglie di modelli (Qwen3 e OLMO3) e compiti di ragionamento, TEMPO migliora OLMO3-7B su AIME 2024 dal 33.0% al 51.1% e Qwen3-14B dal 42.3% al 65.8%, mantenendo un'elevata diversità.

English

Test-time training (TTT) adapts model parameters on unlabeled test instances during inference time, which continuously extends capabilities beyond the reach of offline training. Despite initial gains, existing TTT methods for LRMs plateau quickly and do not benefit from additional test-time compute. Without external calibration, the self-generated reward signal increasingly drifts as the policy model evolves, leading to both performance plateaus and diversity collapse. We propose TEMPO, a TTT framework that interleaves policy refinement on unlabeled questions with periodic critic recalibration on a labeled dataset. By formalizing this alternating procedure through the Expectation-Maximization (EM) algorithm, we reveal that prior methods can be interpreted as incomplete variants that omit the crucial recalibration step. Reintroducing this step tightens the evidence lower bound (ELBO) and enables sustained improvement. Across diverse model families (Qwen3 and OLMO3) and reasoning tasks, TEMPO improves OLMO3-7B on AIME 2024 from 33.0% to 51.1% and Qwen3-14B from 42.3% to 65.8%, while maintaining high diversity.

TEMPO: Scalabilità dell'Addestramento al Momento del Test per Modelli di Ragionamento di Grande Dimensione

TEMPO: Scaling Test-time Training for Large Reasoning Models

Abstract

Support