Обучение в процессе работы: Учебные планы для целевого обучения с подкреплением на этапе тестирования
Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning
October 6, 2025
Авторы: Jonas Hübotter, Leander Diaz-Bone, Ido Hakimi, Andreas Krause, Moritz Hardt
cs.AI
Аннотация
Люди хорошо справляются с обучением в процессе работы: мы учимся решать задачи по мере их появления. Может ли модель делать то же самое? Мы предлагаем агента, который формирует специфическую для задачи учебную программу, называемую учебной программой на этапе тестирования (TTC-RL), и применяет обучение с подкреплением для продолжения тренировки модели на целевую задачу. Учебная программа на этапе тестирования позволяет избежать трудоемкого ручного отбора данных, автоматически выбирая наиболее релевантные для задачи данные из большого пула доступных обучающих данных. Наши эксперименты демонстрируют, что обучение с подкреплением на основе учебной программы на этапе тестирования последовательно улучшает модель на целевых задачах, что подтверждается различными оценками и моделями. В частности, на сложных математических и кодировочных тестах TTC-RL улучшает показатель pass@1 модели Qwen3-8B примерно в 1,8 раза на AIME25 и в 2,1 раза на CodeElo. Более того, мы обнаружили, что TTC-RL значительно повышает предельную производительность по сравнению с исходной моделью, увеличивая pass@8 на AIME25 с 40% до 62% и на CodeElo с 28% до 43%. Наши результаты показывают потенциал учебных программ на этапе тестирования в расширении парадигмы масштабирования на этапе тестирования до непрерывного обучения на тысячах релевантных для задачи опытов в процессе тестирования.
English
Humans are good at learning on the job: We learn how to solve the tasks we
face as we go along. Can a model do the same? We propose an agent that
assembles a task-specific curriculum, called test-time curriculum (TTC-RL), and
applies reinforcement learning to continue training the model for its target
task. The test-time curriculum avoids time-consuming human curation of datasets
by automatically selecting the most task-relevant data from a large pool of
available training data. Our experiments demonstrate that reinforcement
learning on a test-time curriculum consistently improves the model on its
target tasks, across a variety of evaluations and models. Notably, on
challenging math and coding benchmarks, TTC-RL improves the pass@1 of Qwen3-8B
by approximately 1.8x on AIME25 and 2.1x on CodeElo. Moreover, we find that
TTC-RL significantly raises the performance ceiling compared to the initial
model, increasing pass@8 on AIME25 from 40% to 62% and on CodeElo from 28% to
43%. Our findings show the potential of test-time curricula in extending the
test-time scaling paradigm to continual training on thousands of task-relevant
experiences during test-time.