Revisitando o DAgger na Era dos Agentes de LLM

Resumo

Agentes LM de longo horizonte aprendem a partir de interações em múltiplas rodadas, onde um único erro inicial pode alterar a distribuição de estados subsequente e comprometer toda a trajetória. As abordagens existentes apresentam limitações de forma complementar: o ajuste fino supervisionado fornece supervisão densa do professor, mas sofre de mudança de covariável por ser treinado em trajetórias do professor fora da política; enquanto o aprendizado por reforço com recompensas verificáveis evita esse desalinhamento fora da política ao aprender a partir de trajetórias geradas na política, porém com apenas feedback esparso de resultado. Abordamos esse dilema revisitando a Agregação de Conjuntos de Dados (DAgger) para agentes LM de múltiplas rodadas: o algoritmo coleta trajetórias por meio de uma interpolação no nível de rodada entre as políticas do aluno e do professor, e o aluno é então treinado nessas trajetórias usando rótulos supervisionados fornecidos pelo professor. Ao interagir diretamente com os ambientes, expomos o modelo a estados realistas que provavelmente serão encontrados durante a implantação, mitigando assim a mudança de covariável de forma eficaz. Além disso, como o aluno é aprendido imitando o comportamento do professor, ele recebe feedback rico durante o aprendizado. Para demonstrar que o DAgger reúne os benefícios de ambos os mundos, testamos o algoritmo para treinar um agente de engenharia de software com modelos aluno de escala 4B e 8B. No SWE-bench Verified, nosso treinamento no estilo DAgger melhora a linha de base de pós-treinamento mais forte em +3,9 pontos para 4B e +3,6 pontos para 8B. O agente de 4B resultante atinge 27,3%, superando sistemas representativos publicados de agente SWE de 8B, enquanto o agente de 8B alcança 29,8%, ultrapassando o SWE-Gym-32B e ficando a menos de 5 pontos de agentes de escala 32B mais fortes. Junto com ganhos consistentes na divisão retida do SWE-Gym, esses resultados sugerem a eficácia do DAgger para agentes LM modernos de longo horizonte.

English

Long-horizon LM agents learn from multi-turn interaction, where a single early mistake can alter the subsequent state distribution and derail the whole trajectory. Existing recipes fall short in complementary ways: supervised fine-tuning provides dense teacher supervision but suffers from covariate shift because it is trained on off-policy teacher trajectories; while reinforcement learning with verifiable rewards avoids this off-policy mismatch by learning from on-policy rollouts but with only sparse outcome feedback. We address this dilemma by revisiting Dataset Aggregation (DAgger) for multi-turn LM agents: the algorithm collects trajectories through a turn-level interpolation of student and teacher policies, and the student is then trained on these trajectories using supervised labels provided by the teacher. By directly interacting with environments, we expose the model to realistic states likely to be encountered during deployment, thereby effectively mitigating covariate shift. Besides, since the student is learned by mimicking the teacher's behavior, it receives rich feedback during learning. To demonstrate DAgger enjoys the benefits of both worlds, we tested the algorithm to train a software-engineering agent with 4B- and 8B-scale student models. On SWE-bench Verified, our DAgger-style training improves over the strongest post-training baseline by +3.9 points at 4B and +3.6 points at 8B. The resulting 4B agent reaches 27.3%, outperforming representative published 8B SWE-agent systems, while the 8B agent achieves 29.8%, surpassing SWE-Gym-32B and coming within 5 points of stronger 32B-scale agents. Together with consistent gains on the held-out SWE-Gym split, these results suggest the effectiveness of DAgger for modern long-horizon LM agents.