Aprendiendo en el Trabajo: Currículos en Tiempo de Prueba para el Aprendizaje por Refuerzo Dirigido
Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning
October 6, 2025
Autores: Jonas Hübotter, Leander Diaz-Bone, Ido Hakimi, Andreas Krause, Moritz Hardt
cs.AI
Resumen
Los seres humanos son buenos aprendiendo sobre la marcha: aprendemos a resolver las tareas que enfrentamos a medida que avanzamos. ¿Puede un modelo hacer lo mismo? Proponemos un agente que ensambla un currículo específico para la tarea, denominado currículo en tiempo de prueba (TTC-RL, por sus siglas en inglés), y aplica aprendizaje por refuerzo para continuar entrenando el modelo en su tarea objetivo. El currículo en tiempo de prueba evita la laboriosa curación humana de conjuntos de datos al seleccionar automáticamente los datos más relevantes para la tarea de un amplio conjunto de datos de entrenamiento disponibles. Nuestros experimentos demuestran que el aprendizaje por refuerzo sobre un currículo en tiempo de prueba mejora consistentemente el modelo en sus tareas objetivo, en una variedad de evaluaciones y modelos. En particular, en desafiantes benchmarks de matemáticas y programación, TTC-RL mejora el pass@1 de Qwen3-8B en aproximadamente 1.8x en AIME25 y 2.1x en CodeElo. Además, encontramos que TTC-RL eleva significativamente el límite de rendimiento en comparación con el modelo inicial, aumentando el pass@8 en AIME25 del 40% al 62% y en CodeElo del 28% al 43%. Nuestros hallazgos muestran el potencial de los currículos en tiempo de prueba para extender el paradigma de escalado en tiempo de prueba al entrenamiento continuo en miles de experiencias relevantes para la tarea durante el tiempo de prueba.
English
Humans are good at learning on the job: We learn how to solve the tasks we
face as we go along. Can a model do the same? We propose an agent that
assembles a task-specific curriculum, called test-time curriculum (TTC-RL), and
applies reinforcement learning to continue training the model for its target
task. The test-time curriculum avoids time-consuming human curation of datasets
by automatically selecting the most task-relevant data from a large pool of
available training data. Our experiments demonstrate that reinforcement
learning on a test-time curriculum consistently improves the model on its
target tasks, across a variety of evaluations and models. Notably, on
challenging math and coding benchmarks, TTC-RL improves the pass@1 of Qwen3-8B
by approximately 1.8x on AIME25 and 2.1x on CodeElo. Moreover, we find that
TTC-RL significantly raises the performance ceiling compared to the initial
model, increasing pass@8 on AIME25 from 40% to 62% and on CodeElo from 28% to
43%. Our findings show the potential of test-time curricula in extending the
test-time scaling paradigm to continual training on thousands of task-relevant
experiences during test-time.