TEMPO : Mettre à l'échelle l'entraînement en temps de test pour les grands modèles de raisonnement

Résumé

L’entraînement au moment du test (TTT) adapte les paramètres du modèle sur des instances de test non étiquetées pendant l’inférence, étendant continuellement les capacités au-delà de ce que permet l’entraînement hors ligne. Malgré des gains initiaux, les méthodes TTT existantes pour les modèles de raisonnement linguistique (LRM) plafonnent rapidement et ne bénéficient pas de calculs supplémentaires au moment du test. Sans calibration externe, le signal de récompense auto-généré dérive de plus en plus à mesure que le modèle de politique évolue, conduisant à la fois à des plateaux de performance et à un effondrement de la diversité. Nous proposons TEMPO, un framework TTT qui alterne le raffinement de la politique sur des questions non étiquetées avec une recalibration périodique du critique sur un jeu de données étiqueté. En formalisant cette procédure alternée via l’algorithme Expectation-Maximization (EM), nous montrons que les méthodes antérieures peuvent être interprétées comme des variantes incomplètes omettant l’étape cruciale de recalibration. Réintroduire cette étape resserre la borne inférieure de l’évidence (ELBO) et permet une amélioration soutenue. Sur diverses familles de modèles (Qwen3 et OLMO3) et tâches de raisonnement, TEMPO améliore OLMO3-7B sur AIME 2024 de 33,0 % à 51,1 % et Qwen3-14B de 42,3 % à 65,8 %, tout en maintenant une grande diversité.

English

Test-time training (TTT) adapts model parameters on unlabeled test instances during inference time, which continuously extends capabilities beyond the reach of offline training. Despite initial gains, existing TTT methods for LRMs plateau quickly and do not benefit from additional test-time compute. Without external calibration, the self-generated reward signal increasingly drifts as the policy model evolves, leading to both performance plateaus and diversity collapse. We propose TEMPO, a TTT framework that interleaves policy refinement on unlabeled questions with periodic critic recalibration on a labeled dataset. By formalizing this alternating procedure through the Expectation-Maximization (EM) algorithm, we reveal that prior methods can be interpreted as incomplete variants that omit the crucial recalibration step. Reintroducing this step tightens the evidence lower bound (ELBO) and enables sustained improvement. Across diverse model families (Qwen3 and OLMO3) and reasoning tasks, TEMPO improves OLMO3-7B on AIME 2024 from 33.0% to 51.1% and Qwen3-14B from 42.3% to 65.8%, while maintaining high diversity.

TEMPO : Mettre à l'échelle l'entraînement en temps de test pour les grands modèles de raisonnement

TEMPO: Scaling Test-time Training for Large Reasoning Models

Résumé

Support