TEMPO: Skalierung von Testzeit-Training für große Reasoning-Modelle

Zusammenfassung

Test-Time Training (TTT) passt Modellparameter während der Inferenzzeit an unmarkierten Testinstanzen an und erweitert so kontinuierlich die Fähigkeiten über die Grenzen des Offline-Trainings hinaus. Trotz anfänglicher Erfolge stagnieren bestehende TTT-Methoden für LRMs schnell und profitieren nicht von zusätzlicher Testzeit-Rechenleistung. Ohne externe Kalibrierung driftet das selbstgenerierte Belohnungssignal zunehmend ab, während sich das Policy-Modell weiterentwickelt, was sowohl zu Leistungsplateaus als auch zu einem Kollaps der Diversität führt. Wir schlagen TEMPO vor, ein TTT-Framework, das Policy-Verfeinerung an unmarkierten Fragen mit periodischer Kritiker-Neukalibrierung auf einem markierten Datensatz abwechselt. Durch die Formalisierung dieses Wechselverfahrens mittels des Expectation-Maximization (EM)-Algorithmus zeigen wir, dass frühere Methoden als unvollständige Varianten interpretiert werden können, die den entscheidenden Neukalibrierungsschritt auslassen. Die Wiedereinführung dieses Schrittes verschärft die untere Schranke der Evidenz (ELBO) und ermöglicht nachhaltige Verbesserungen. Über verschiedene Modellfamilien (Qwen3 und OLMO3) und Reasoning-Aufgaben hinweg verbessert TEMPO OLMO3-7B auf AIME 2024 von 33,0 % auf 51,1 % und Qwen3-14B von 42,3 % auf 65,8 %, bei gleichzeitig hoher Diversität.

English

Test-time training (TTT) adapts model parameters on unlabeled test instances during inference time, which continuously extends capabilities beyond the reach of offline training. Despite initial gains, existing TTT methods for LRMs plateau quickly and do not benefit from additional test-time compute. Without external calibration, the self-generated reward signal increasingly drifts as the policy model evolves, leading to both performance plateaus and diversity collapse. We propose TEMPO, a TTT framework that interleaves policy refinement on unlabeled questions with periodic critic recalibration on a labeled dataset. By formalizing this alternating procedure through the Expectation-Maximization (EM) algorithm, we reveal that prior methods can be interpreted as incomplete variants that omit the crucial recalibration step. Reintroducing this step tightens the evidence lower bound (ELBO) and enables sustained improvement. Across diverse model families (Qwen3 and OLMO3) and reasoning tasks, TEMPO improves OLMO3-7B on AIME 2024 from 33.0% to 51.1% and Qwen3-14B from 42.3% to 65.8%, while maintaining high diversity.

TEMPO: Skalierung von Testzeit-Training für große Reasoning-Modelle

TEMPO: Scaling Test-time Training for Large Reasoning Models

Zusammenfassung

Support