Aprendendo no Trabalho: Currículos no Momento do Teste para Aprendizado por Reforço Direcionado
Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning
October 6, 2025
Autores: Jonas Hübotter, Leander Diaz-Bone, Ido Hakimi, Andreas Krause, Moritz Hardt
cs.AI
Resumo
Os seres humanos são bons em aprender durante a execução de tarefas: aprendemos a resolver os desafios que enfrentamos à medida que avançamos. Um modelo pode fazer o mesmo? Propomos um agente que monta um currículo específico para a tarefa, chamado de currículo em tempo de teste (TTC-RL), e aplica o aprendizado por reforço para continuar treinando o modelo para sua tarefa-alvo. O currículo em tempo de teste evita a curadoria demorada de conjuntos de dados por humanos, selecionando automaticamente os dados mais relevantes para a tarefa a partir de um grande pool de dados de treinamento disponíveis. Nossos experimentos demonstram que o aprendizado por reforço em um currículo em tempo de teste melhora consistentemente o modelo em suas tarefas-alvo, em uma variedade de avaliações e modelos. Notavelmente, em benchmarks desafiadores de matemática e programação, o TTC-RL melhora o pass@1 do Qwen3-8B em aproximadamente 1,8x no AIME25 e 2,1x no CodeElo. Além disso, descobrimos que o TTC-RL eleva significativamente o limite de desempenho em comparação com o modelo inicial, aumentando o pass@8 no AIME25 de 40% para 62% e no CodeElo de 28% para 43%. Nossas descobertas mostram o potencial dos currículos em tempo de teste para estender o paradigma de escalonamento em tempo de teste ao treinamento contínuo em milhares de experiências relevantes para a tarefa durante o tempo de teste.
English
Humans are good at learning on the job: We learn how to solve the tasks we
face as we go along. Can a model do the same? We propose an agent that
assembles a task-specific curriculum, called test-time curriculum (TTC-RL), and
applies reinforcement learning to continue training the model for its target
task. The test-time curriculum avoids time-consuming human curation of datasets
by automatically selecting the most task-relevant data from a large pool of
available training data. Our experiments demonstrate that reinforcement
learning on a test-time curriculum consistently improves the model on its
target tasks, across a variety of evaluations and models. Notably, on
challenging math and coding benchmarks, TTC-RL improves the pass@1 of Qwen3-8B
by approximately 1.8x on AIME25 and 2.1x on CodeElo. Moreover, we find that
TTC-RL significantly raises the performance ceiling compared to the initial
model, increasing pass@8 on AIME25 from 40% to 62% and on CodeElo from 28% to
43%. Our findings show the potential of test-time curricula in extending the
test-time scaling paradigm to continual training on thousands of task-relevant
experiences during test-time.