HINT-SD: Autodestilação Direcionada por Hindsight para Agentes de Longo Horizonte

Resumo

Treinar agentes LLM de longo horizonte com aprendizado por reforço é desafiador, pois recompensas esparsas de resultado revelam se uma tarefa tem sucesso, mas não quais ações intermediárias causaram o resultado ou como deveriam ser corrigidas. Métodos recentes atenuam esse problema gerando recompensas ou dicas textuais a partir de sinais de ação-saída em nível de turno, ou usando autodestilação condicionada a feedback. No entanto, gerar feedback a cada turno é ineficiente quando muitos turnos intermediários já são bem-sucedidos ou neutros, e aplicar feedback em um turno fixo ou desalinhado muitas vezes falha em supervisionar as ações que contribuíram para o fracasso. Para preencher essa lacuna, propomos o HINT-SD, uma estrutura de autodestilação direcionada que usa retrospectiva de trajetória completa para selecionar ações relevantes para falhas e aplica destilação condicionada a feedback apenas em spans de ação direcionados. Experimentos no BFCL v3 e AppWorld mostram que nosso método melhora em relação à linha de base de feedback denso por turno em até 18,80%, enquanto alcança um tempo 2,26 vezes menor por etapa de treinamento, sugerindo que selecionar onde destilar é um fator chave para o treinamento de agentes de longo horizonte tanto eficaz quanto eficiente.

English

Training long-horizon LLM agents with reinforcement learning is challenging because sparse outcome rewards reveal whether a task succeeds, but not which intermediate actions caused the outcome or how they should be corrected. Recent methods alleviate this issue by generating rewards or textual hints from turn-level action-output signals, or by using feedback-conditioned self-distillation. However, generating feedback at every turn is inefficient when many intermediate turns are already successful or neutral, and applying feedback at a fixed or misaligned turn often fails to supervise the actions that contributed to the failure. To bridge this gap, we propose HINT-SD, a targeted self-distillation framework that uses full-trajectory hindsight to select failure-relevant actions and applies feedback-conditioned distillation only on targeted action spans. Experiments on BFCL v3 and AppWorld show that our method improves over the dense per-turn feedback baseline by up to 18.80 percent while achieving 2.26times lower time per training step, suggesting that selecting where to distill is a key factor for both effective and efficient long-horizon agent training.