Apprendimento sul Lavoro: Curriculum a Tempo di Test per il Reinforcement Learning Mirato
Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning
October 6, 2025
Autori: Jonas Hübotter, Leander Diaz-Bone, Ido Hakimi, Andreas Krause, Moritz Hardt
cs.AI
Abstract
Gli esseri umani sono abili nell'apprendere sul campo: impariamo a risolvere i compiti che ci si presentano man mano che procediamo. Un modello può fare lo stesso? Proponiamo un agente che assembla un curriculum specifico per il compito, chiamato curriculum al momento del test (TTC-RL), e applica l'apprendimento per rinforzo per continuare ad addestrare il modello sul suo obiettivo specifico. Il curriculum al momento del test evita la laboriosa selezione manuale dei dataset selezionando automaticamente i dati più rilevanti per il compito da un ampio pool di dati di addestramento disponibili. I nostri esperimenti dimostrano che l'apprendimento per rinforzo su un curriculum al momento del test migliora costantemente le prestazioni del modello sui suoi compiti target, attraverso una varietà di valutazioni e modelli. In particolare, su benchmark impegnativi di matematica e programmazione, TTC-RL migliora il pass@1 di Qwen3-8B di circa 1,8x su AIME25 e 2,1x su CodeElo. Inoltre, scopriamo che TTC-RL aumenta significativamente il limite di prestazioni rispetto al modello iniziale, incrementando il pass@8 su AIME25 dal 40% al 62% e su CodeElo dal 28% al 43%. I nostri risultati dimostrano il potenziale dei curriculum al momento del test nell'estendere il paradigma di scalabilità al momento del test a un addestramento continuo su migliaia di esperienze rilevanti per il compito durante il test.
English
Humans are good at learning on the job: We learn how to solve the tasks we
face as we go along. Can a model do the same? We propose an agent that
assembles a task-specific curriculum, called test-time curriculum (TTC-RL), and
applies reinforcement learning to continue training the model for its target
task. The test-time curriculum avoids time-consuming human curation of datasets
by automatically selecting the most task-relevant data from a large pool of
available training data. Our experiments demonstrate that reinforcement
learning on a test-time curriculum consistently improves the model on its
target tasks, across a variety of evaluations and models. Notably, on
challenging math and coding benchmarks, TTC-RL improves the pass@1 of Qwen3-8B
by approximately 1.8x on AIME25 and 2.1x on CodeElo. Moreover, we find that
TTC-RL significantly raises the performance ceiling compared to the initial
model, increasing pass@8 on AIME25 from 40% to 62% and on CodeElo from 28% to
43%. Our findings show the potential of test-time curricula in extending the
test-time scaling paradigm to continual training on thousands of task-relevant
experiences during test-time.