Leren op de Taak: Testtijd Curricula voor Gerichte Versterkingsleren

Samenvatting

Mensen zijn goed in leren tijdens het werk: We leren hoe we de taken waarmee we worden geconfronteerd moeten oplossen terwijl we bezig zijn. Kan een model hetzelfde doen? Wij stellen een agent voor die een taakspecifiek curriculum samenstelt, genaamd test-time curriculum (TTC-RL), en reinforcement learning toepast om het model verder te trainen voor zijn doeltaak. Het test-time curriculum vermijdt tijdrovende menselijke curatie van datasets door automatisch de meest taakrelevante gegevens te selecteren uit een grote pool van beschikbare trainingsgegevens. Onze experimenten tonen aan dat reinforcement learning op een test-time curriculum het model consistent verbetert voor zijn doel taken, over een verscheidenheid aan evaluaties en modellen. Opvallend is dat TTC-RL op uitdagende wiskunde- en programmeerbenchmarks de pass@1 van Qwen3-8B met ongeveer 1,8x verbetert op AIME25 en met 2,1x op CodeElo. Bovendien vinden we dat TTC-RL de prestatieplafonds aanzienlijk verhoogt in vergelijking met het initiële model, waarbij pass@8 op AIME25 stijgt van 40% naar 62% en op CodeElo van 28% naar 43%. Onze bevindingen tonen het potentieel van test-time curricula aan in het uitbreiden van het test-time schaalparadigma naar voortdurende training op duizenden taakrelevante ervaringen tijdens test-time.

English

Humans are good at learning on the job: We learn how to solve the tasks we face as we go along. Can a model do the same? We propose an agent that assembles a task-specific curriculum, called test-time curriculum (TTC-RL), and applies reinforcement learning to continue training the model for its target task. The test-time curriculum avoids time-consuming human curation of datasets by automatically selecting the most task-relevant data from a large pool of available training data. Our experiments demonstrate that reinforcement learning on a test-time curriculum consistently improves the model on its target tasks, across a variety of evaluations and models. Notably, on challenging math and coding benchmarks, TTC-RL improves the pass@1 of Qwen3-8B by approximately 1.8x on AIME25 and 2.1x on CodeElo. Moreover, we find that TTC-RL significantly raises the performance ceiling compared to the initial model, increasing pass@8 on AIME25 from 40% to 62% and on CodeElo from 28% to 43%. Our findings show the potential of test-time curricula in extending the test-time scaling paradigm to continual training on thousands of task-relevant experiences during test-time.

Leren op de Taak: Testtijd Curricula voor Gerichte Versterkingsleren

Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning

Samenvatting

Support