ChatPaper.aiChatPaper

Apprentissage en situation : Curricula au moment du test pour un apprentissage par renforcement ciblé

Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning

October 6, 2025
papers.authors: Jonas Hübotter, Leander Diaz-Bone, Ido Hakimi, Andreas Krause, Moritz Hardt
cs.AI

papers.abstract

Les humains sont doués pour apprendre sur le tas : nous apprenons à résoudre les tâches auxquelles nous sommes confrontés au fur et à mesure. Un modèle peut-il en faire de même ? Nous proposons un agent qui assemble un curriculum spécifique à la tâche, appelé curriculum en temps de test (TTC-RL), et applique l'apprentissage par renforcement pour continuer à entraîner le modèle sur sa tâche cible. Le curriculum en temps de test évite la curation fastidieuse des ensembles de données par des humains en sélectionnant automatiquement les données les plus pertinentes pour la tâche à partir d'un vaste pool de données d'entraînement disponibles. Nos expériences démontrent que l'apprentissage par renforcement sur un curriculum en temps de test améliore systématiquement les performances du modèle sur ses tâches cibles, à travers une variété d'évaluations et de modèles. Notamment, sur des benchmarks exigeants en mathématiques et en codage, TTC-RL améliore le pass@1 de Qwen3-8B d'environ 1,8x sur AIME25 et de 2,1x sur CodeElo. De plus, nous constatons que TTC-RL élève significativement le plafond de performance par rapport au modèle initial, augmentant le pass@8 sur AIME25 de 40 % à 62 % et sur CodeElo de 28 % à 43 %. Nos résultats montrent le potentiel des curriculums en temps de test pour étendre le paradigme de mise à l'échelle en temps de test à un entraînement continu sur des milliers d'expériences pertinentes pour la tâche pendant le temps de test.
English
Humans are good at learning on the job: We learn how to solve the tasks we face as we go along. Can a model do the same? We propose an agent that assembles a task-specific curriculum, called test-time curriculum (TTC-RL), and applies reinforcement learning to continue training the model for its target task. The test-time curriculum avoids time-consuming human curation of datasets by automatically selecting the most task-relevant data from a large pool of available training data. Our experiments demonstrate that reinforcement learning on a test-time curriculum consistently improves the model on its target tasks, across a variety of evaluations and models. Notably, on challenging math and coding benchmarks, TTC-RL improves the pass@1 of Qwen3-8B by approximately 1.8x on AIME25 and 2.1x on CodeElo. Moreover, we find that TTC-RL significantly raises the performance ceiling compared to the initial model, increasing pass@8 on AIME25 from 40% to 62% and on CodeElo from 28% to 43%. Our findings show the potential of test-time curricula in extending the test-time scaling paradigm to continual training on thousands of task-relevant experiences during test-time.
PDF12October 7, 2025