TEMPO: Escalonamento do Treinamento Durante o Teste para Grandes Modelos de Raciocínio

Resumo

O treinamento em tempo de teste (TTT) adapta os parâmetros do modelo em instâncias de teste não rotuladas durante a inferência, estendendo continuamente as capacidades para além do alcance do treinamento offline. Apesar dos ganhos iniciais, os métodos TTT existentes para LRMs estagnam rapidamente e não se beneficiam de computação adicional em tempo de teste. Sem calibração externa, o sinal de recompensa autogerado desvia-se progressivamente à medida que o modelo de política evolui, levando tanto a platôs de desempenho quanto ao colapso da diversidade. Propomos o TEMPO, uma estrutura TTT que intercala o refinamento da política em questões não rotuladas com a recalibração periódica do crítico em um conjunto de dados rotulado. Ao formalizar este procedimento alternante através do algoritmo Expectation-Maximization (EM), revelamos que os métodos anteriores podem ser interpretados como variantes incompletas que omitem a etapa crucial de recalibração. Reintroduzir esta etapa aperta o limite inferior da evidência (ELBO) e permite uma melhoria sustentada. Em diversas famílias de modelos (Qwen3 e OLMO3) e tarefas de raciocínio, o TEMPO melhora o OLMO3-7B no AIME 2024 de 33,0% para 51,1% e o Qwen3-14B de 42,3% para 65,8%, mantendo alta diversidade.

English

Test-time training (TTT) adapts model parameters on unlabeled test instances during inference time, which continuously extends capabilities beyond the reach of offline training. Despite initial gains, existing TTT methods for LRMs plateau quickly and do not benefit from additional test-time compute. Without external calibration, the self-generated reward signal increasingly drifts as the policy model evolves, leading to both performance plateaus and diversity collapse. We propose TEMPO, a TTT framework that interleaves policy refinement on unlabeled questions with periodic critic recalibration on a labeled dataset. By formalizing this alternating procedure through the Expectation-Maximization (EM) algorithm, we reveal that prior methods can be interpreted as incomplete variants that omit the crucial recalibration step. Reintroducing this step tightens the evidence lower bound (ELBO) and enables sustained improvement. Across diverse model families (Qwen3 and OLMO3) and reasoning tasks, TEMPO improves OLMO3-7B on AIME 2024 from 33.0% to 51.1% and Qwen3-14B from 42.3% to 65.8%, while maintaining high diversity.

TEMPO: Escalonamento do Treinamento Durante o Teste para Grandes Modelos de Raciocínio

TEMPO: Scaling Test-time Training for Large Reasoning Models

Resumo

Support