Leren op de Taak: Testtijd Curricula voor Gerichte Versterkingsleren
Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning
October 6, 2025
Auteurs: Jonas Hübotter, Leander Diaz-Bone, Ido Hakimi, Andreas Krause, Moritz Hardt
cs.AI
Samenvatting
Mensen zijn goed in leren tijdens het werk: We leren hoe we de taken waarmee we worden geconfronteerd moeten oplossen terwijl we bezig zijn. Kan een model hetzelfde doen? Wij stellen een agent voor die een taakspecifiek curriculum samenstelt, genaamd test-time curriculum (TTC-RL), en reinforcement learning toepast om het model verder te trainen voor zijn doeltaak. Het test-time curriculum vermijdt tijdrovende menselijke curatie van datasets door automatisch de meest taakrelevante gegevens te selecteren uit een grote pool van beschikbare trainingsgegevens. Onze experimenten tonen aan dat reinforcement learning op een test-time curriculum het model consistent verbetert voor zijn doel taken, over een verscheidenheid aan evaluaties en modellen. Opvallend is dat TTC-RL op uitdagende wiskunde- en programmeerbenchmarks de pass@1 van Qwen3-8B met ongeveer 1,8x verbetert op AIME25 en met 2,1x op CodeElo. Bovendien vinden we dat TTC-RL de prestatieplafonds aanzienlijk verhoogt in vergelijking met het initiële model, waarbij pass@8 op AIME25 stijgt van 40% naar 62% en op CodeElo van 28% naar 43%. Onze bevindingen tonen het potentieel van test-time curricula aan in het uitbreiden van het test-time schaalparadigma naar voortdurende training op duizenden taakrelevante ervaringen tijdens test-time.
English
Humans are good at learning on the job: We learn how to solve the tasks we
face as we go along. Can a model do the same? We propose an agent that
assembles a task-specific curriculum, called test-time curriculum (TTC-RL), and
applies reinforcement learning to continue training the model for its target
task. The test-time curriculum avoids time-consuming human curation of datasets
by automatically selecting the most task-relevant data from a large pool of
available training data. Our experiments demonstrate that reinforcement
learning on a test-time curriculum consistently improves the model on its
target tasks, across a variety of evaluations and models. Notably, on
challenging math and coding benchmarks, TTC-RL improves the pass@1 of Qwen3-8B
by approximately 1.8x on AIME25 and 2.1x on CodeElo. Moreover, we find that
TTC-RL significantly raises the performance ceiling compared to the initial
model, increasing pass@8 on AIME25 from 40% to 62% and on CodeElo from 28% to
43%. Our findings show the potential of test-time curricula in extending the
test-time scaling paradigm to continual training on thousands of task-relevant
experiences during test-time.