TEMPO: Escalando el entrenamiento durante la prueba para modelos de razonamiento a gran escala

Resumen

El entrenamiento en tiempo de prueba (TTT) adapta los parámetros del modelo en instancias de prueba no etiquetadas durante la inferencia, lo que amplía continuamente las capacidades más allá del alcance del entrenamiento offline. A pesar de las ganancias iniciales, los métodos TTT existentes para LRMs se estancan rápidamente y no se benefician de recursos computacionales adicionales durante la prueba. Sin calibración externa, la señal de recompensa autogenerada se desvía progresivamente a medida que el modelo de política evoluciona, conduciendo tanto a mesetas de rendimiento como a colapso de diversidad. Proponemos TEMPO, un marco TTT que intercala el refinamiento de políticas en preguntas no etiquetadas con recalibración periódica del crítico en un conjunto de datos etiquetado. Al formalizar este procedimiento alternante mediante el algoritmo Expectation-Maximization (EM), revelamos que los métodos previos pueden interpretarse como variantes incompletas que omiten el crucial paso de recalibración. Reintroducir este paso refuerza la cota inferior de evidencia (ELBO) y permite una mejora sostenida. En diversas familias de modelos (Qwen3 y OLMO3) y tareas de razonamiento, TEMPO mejora OLMO3-7B en AIME 2024 del 33.0% al 51.1% y Qwen3-14B del 42.3% al 65.8%, manteniendo alta diversidad.

English

Test-time training (TTT) adapts model parameters on unlabeled test instances during inference time, which continuously extends capabilities beyond the reach of offline training. Despite initial gains, existing TTT methods for LRMs plateau quickly and do not benefit from additional test-time compute. Without external calibration, the self-generated reward signal increasingly drifts as the policy model evolves, leading to both performance plateaus and diversity collapse. We propose TEMPO, a TTT framework that interleaves policy refinement on unlabeled questions with periodic critic recalibration on a labeled dataset. By formalizing this alternating procedure through the Expectation-Maximization (EM) algorithm, we reveal that prior methods can be interpreted as incomplete variants that omit the crucial recalibration step. Reintroducing this step tightens the evidence lower bound (ELBO) and enables sustained improvement. Across diverse model families (Qwen3 and OLMO3) and reasoning tasks, TEMPO improves OLMO3-7B on AIME 2024 from 33.0% to 51.1% and Qwen3-14B from 42.3% to 65.8%, while maintaining high diversity.

TEMPO: Escalando el entrenamiento durante la prueba para modelos de razonamiento a gran escala

TEMPO: Scaling Test-time Training for Large Reasoning Models

Resumen

Support