Lernen am Arbeitsplatz: Testzeit-Lehrpläne für gezieltes bestärkendes Lernen
Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning
October 6, 2025
papers.authors: Jonas Hübotter, Leander Diaz-Bone, Ido Hakimi, Andreas Krause, Moritz Hardt
cs.AI
papers.abstract
Menschen sind gut darin, im Arbeitsprozess zu lernen: Wir lernen, wie wir die Aufgaben, denen wir gegenüberstehen, im Laufe der Zeit lösen können. Kann ein Modell dasselbe erreichen? Wir schlagen einen Agenten vor, der ein aufgabenbezogenes Curriculum zusammenstellt, genannt Test-Time Curriculum (TTC-RL), und Reinforcement Learning anwendet, um das Modell für seine Zielaufgabe weiter zu trainieren. Das Test-Time Curriculum vermeidet zeitaufwändige menschliche Kuratierung von Datensätzen, indem es automatisch die für die Aufgabe relevantesten Daten aus einem großen Pool verfügbarer Trainingsdaten auswählt. Unsere Experimente zeigen, dass Reinforcement Learning auf einem Test-Time Curriculum das Modell bei seinen Zielaufgaben durchgängig verbessert, und dies über eine Vielzahl von Evaluierungen und Modellen hinweg. Bemerkenswerterweise steigert TTC-RL die pass@1-Leistung von Qwen3-8B auf anspruchsvollen mathematischen und Programmier-Benchmarks um etwa das 1,8-fache auf AIME25 und das 2,1-fache auf CodeElo. Darüber hinaus stellen wir fest, dass TTC-RL die Leistungsgrenze im Vergleich zum Ausgangsmodell signifikant erhöht, indem es pass@8 auf AIME25 von 40 % auf 62 % und auf CodeElo von 28 % auf 43 % steigert. Unsere Ergebnisse zeigen das Potenzial von Test-Time Curricula, das Paradigma der Test-Time-Skalierung auf kontinuierliches Training mit tausenden aufgabenrelevanten Erfahrungen während der Testphase auszuweiten.
English
Humans are good at learning on the job: We learn how to solve the tasks we
face as we go along. Can a model do the same? We propose an agent that
assembles a task-specific curriculum, called test-time curriculum (TTC-RL), and
applies reinforcement learning to continue training the model for its target
task. The test-time curriculum avoids time-consuming human curation of datasets
by automatically selecting the most task-relevant data from a large pool of
available training data. Our experiments demonstrate that reinforcement
learning on a test-time curriculum consistently improves the model on its
target tasks, across a variety of evaluations and models. Notably, on
challenging math and coding benchmarks, TTC-RL improves the pass@1 of Qwen3-8B
by approximately 1.8x on AIME25 and 2.1x on CodeElo. Moreover, we find that
TTC-RL significantly raises the performance ceiling compared to the initial
model, increasing pass@8 on AIME25 from 40% to 62% and on CodeElo from 28% to
43%. Our findings show the potential of test-time curricula in extending the
test-time scaling paradigm to continual training on thousands of task-relevant
experiences during test-time.