HINT-SD: Autodestilación de Retrospectiva Dirigida para Agentes de Largo Horizonte

Resumen

Entrenar agentes LLM de horizonte largo con aprendizaje por refuerzo es un desafío porque las recompensas de resultado dispersas revelan si una tarea se completa, pero no qué acciones intermedias causaron dicho resultado ni cómo deberían corregirse. Métodos recientes alivian este problema generando recompensas o pistas textuales a partir de señales de acción-salida a nivel de turno, o mediante autodestilación condicionada por retroalimentación. Sin embargo, generar retroalimentación en cada turno resulta ineficiente cuando muchos turnos intermedios ya son exitosos o neutros, y aplicar retroalimentación en un turno fijo o desalineado a menudo no logra supervisar las acciones que contribuyeron al fallo. Para cerrar esta brecha, proponemos HINT-SD, un marco de autodestilación dirigida que utiliza retrospectiva de trayectoria completa para seleccionar acciones relevantes al fallo y aplica destilación condicionada por retroalimentación únicamente en tramos de acción específicos. Los experimentos en BFCL v3 y AppWorld muestran que nuestro método mejora la línea base de retroalimentación densa por turno hasta en un 18,80 %, al mismo tiempo que logra un tiempo por paso de entrenamiento 2,26 veces menor, lo que sugiere que seleccionar dónde destilar es un factor clave tanto para un entrenamiento eficaz como eficiente de agentes de horizonte largo.

English

Training long-horizon LLM agents with reinforcement learning is challenging because sparse outcome rewards reveal whether a task succeeds, but not which intermediate actions caused the outcome or how they should be corrected. Recent methods alleviate this issue by generating rewards or textual hints from turn-level action-output signals, or by using feedback-conditioned self-distillation. However, generating feedback at every turn is inefficient when many intermediate turns are already successful or neutral, and applying feedback at a fixed or misaligned turn often fails to supervise the actions that contributed to the failure. To bridge this gap, we propose HINT-SD, a targeted self-distillation framework that uses full-trajectory hindsight to select failure-relevant actions and applies feedback-conditioned distillation only on targeted action spans. Experiments on BFCL v3 and AppWorld show that our method improves over the dense per-turn feedback baseline by up to 18.80 percent while achieving 2.26times lower time per training step, suggesting that selecting where to distill is a key factor for both effective and efficient long-horizon agent training.