Inicialização de Espaços de Tarefas para Autodesenvolvimento
Bootstrapping Task Spaces for Self-Improvement
September 4, 2025
Autores: Minqi Jiang, Andrei Lupu, Yoram Bachrach
cs.AI
Resumo
O progresso em muitos domínios de tarefas surge de revisões repetidas de tentativas anteriores de solução. Treinar agentes que possam se autoaperfeiçoar de forma confiável ao longo de tais sequências durante o tempo de inferência é um objetivo natural para o aprendizado por reforço (RL), mas a abordagem ingênua assume uma profundidade máxima de iteração fixa, o que pode ser tanto custoso quanto arbitrário. Apresentamos a Iteração Exploratória (ExIt), uma família de métodos de RL de autocurrículo que explora diretamente a estrutura recorrente de tarefas de autoaperfeiçoamento para treinar LLMs a realizar autoaperfeiçoamento em múltiplos passos durante o tempo de inferência, enquanto treina apenas nas iterações de um único passo mais informativas. A ExIt expande um espaço de tarefas ao amostrar seletivamente os históricos intermediários e parciais mais informativos encontrados durante um episódio para continuar a iteração, tratando esses pontos de partida como novas instâncias de tarefas de autoiteração para treinar uma política de autoaperfeiçoamento. A ExIt pode ainda se combinar com mecanismos de exploração explícita para sustentar uma maior diversidade de tarefas. Em vários domínios, abrangendo matemática competitiva, uso de ferramentas em múltiplos turnos e engenharia de aprendizado de máquina, demonstramos que as estratégias ExIt, partindo de uma única ou de várias instâncias de tarefas, podem produzir políticas que exibem um forte autoaperfeiçoamento durante o tempo de inferência em instâncias de tarefas retidas, e a capacidade de iterar em direção a um desempenho mais alto dentro de um orçamento de passos que se estende além da profundidade média de iteração encontrada durante o treinamento.
English
Progress in many task domains emerges from repeated revisions to previous
solution attempts. Training agents that can reliably self-improve over such
sequences at inference-time is a natural target for reinforcement learning
(RL), yet the naive approach assumes a fixed maximum iteration depth, which can
be both costly and arbitrary. We present Exploratory Iteration (ExIt), a family
of autocurriculum RL methods that directly exploits the recurrent structure of
self-improvement tasks to train LLMs to perform multi-step self-improvement at
inference-time while only training on the most informative single-step
iterations. ExIt grows a task space by selectively sampling the most
informative intermediate, partial histories encountered during an episode for
continued iteration, treating these starting points as new self-iteration task
instances to train a self-improvement policy. ExIt can further pair with
explicit exploration mechanisms to sustain greater task diversity. Across
several domains, encompassing competition math, multi-turn tool-use, and
machine learning engineering, we demonstrate that ExIt strategies, starting
from either a single or many task instances, can produce policies exhibiting
strong inference-time self-improvement on held-out task instances, and the
ability to iterate towards higher performance over a step budget extending
beyond the average iteration depth encountered during training.