TEMPO: Масштабирование обучения во время тестирования для больших моделей рассуждений

Аннотация

Метод обучения во время тестирования (TTT) адаптирует параметры модели на немаркированных тестовых примерах в процессе вывода, непрерывно расширяя возможности, недостижимые при офлайн-обучении. Несмотря на первоначальный прогресс, существующие методы TTT для больших языковых моделей (LRM) быстро выходят на плато и не получают пользы от дополнительных вычислительных ресурсов во время тестирования. Без внешней калибровки самогенерируемый сигнал вознаграждения постепенно смещается по мере эволюции модельной политики, что приводит как к плато производительности, так и к коллапсу разнообразия. Мы предлагаем TEMPO — фреймворк TTT, который чередует уточнение политики на немаркированных вопросах с периодической перекалибровкой критика на размеченном наборе данных. Формализуя эту чередующуюся процедуру через алгоритм максимизации ожидания (EM), мы показываем, что предыдущие методы можно интерпретировать как неполные варианты, опускающие критически важный шаг перекалибровки. Возвращение этого шага усиливает нижнюю оценку доказательности (ELBO) и обеспечивает устойчивое улучшение. На разнообразных семействах моделей (Qwen3 и OLMO3) и задачах логического вывода TEMPO улучшает показатели OLMO3-7B на AIME 2024 с 33.0% до 51.1%, а Qwen3-14B — с 42.3% до 65.8%, сохраняя при этом высокое разнообразие.

English

Test-time training (TTT) adapts model parameters on unlabeled test instances during inference time, which continuously extends capabilities beyond the reach of offline training. Despite initial gains, existing TTT methods for LRMs plateau quickly and do not benefit from additional test-time compute. Without external calibration, the self-generated reward signal increasingly drifts as the policy model evolves, leading to both performance plateaus and diversity collapse. We propose TEMPO, a TTT framework that interleaves policy refinement on unlabeled questions with periodic critic recalibration on a labeled dataset. By formalizing this alternating procedure through the Expectation-Maximization (EM) algorithm, we reveal that prior methods can be interpreted as incomplete variants that omit the crucial recalibration step. Reintroducing this step tightens the evidence lower bound (ELBO) and enables sustained improvement. Across diverse model families (Qwen3 and OLMO3) and reasoning tasks, TEMPO improves OLMO3-7B on AIME 2024 from 33.0% to 51.1% and Qwen3-14B from 42.3% to 65.8%, while maintaining high diversity.

TEMPO: Масштабирование обучения во время тестирования для больших моделей рассуждений

TEMPO: Scaling Test-time Training for Large Reasoning Models

Аннотация

Support