HINT-SD : Auto-distillation rétrospective ciblée pour agents à long horizon

Résumé

L’entraînement d’agents LLM à long horizon par apprentissage par renforcement est difficile car les récompenses de résultat éparses indiquent si une tâche réussit, mais ne précisent pas quelles actions intermédiaires ont causé ce résultat ni comment elles devraient être corrigées. Des méthodes récentes atténuent ce problème en générant des récompenses ou des indices textuels à partir des signaux action-sortie au niveau de chaque tour, ou en utilisant une auto-distillation conditionnée par les retours. Cependant, générer un retour à chaque tour est inefficace lorsque de nombreux tours intermédiaires sont déjà réussis ou neutres, et appliquer un retour à un tour fixe ou mal aligné échoue souvent à superviser les actions ayant contribué à l’échec. Pour combler cette lacune, nous proposons HINT-SD, un cadre d’auto-distillation ciblée qui utilise le recul sur l’ensemble de la trajectoire pour sélectionner les actions pertinentes pour l’échec et applique la distillation conditionnée par les retours uniquement sur les segments d’actions ciblés. Les expériences sur BFCL v3 et AppWorld montrent que notre méthode améliore la référence dense avec retour à chaque tour jusqu’à 18,80 % tout en atteignant un temps par étape d’entraînement 2,26 fois inférieur, ce qui suggère que la sélection de l’endroit où distiller est un facteur clé pour un entraînement d’agents à long horizon à la fois efficace et efficient.

English

Training long-horizon LLM agents with reinforcement learning is challenging because sparse outcome rewards reveal whether a task succeeds, but not which intermediate actions caused the outcome or how they should be corrected. Recent methods alleviate this issue by generating rewards or textual hints from turn-level action-output signals, or by using feedback-conditioned self-distillation. However, generating feedback at every turn is inefficient when many intermediate turns are already successful or neutral, and applying feedback at a fixed or misaligned turn often fails to supervise the actions that contributed to the failure. To bridge this gap, we propose HINT-SD, a targeted self-distillation framework that uses full-trajectory hindsight to select failure-relevant actions and applies feedback-conditioned distillation only on targeted action spans. Experiments on BFCL v3 and AppWorld show that our method improves over the dense per-turn feedback baseline by up to 18.80 percent while achieving 2.26times lower time per training step, suggesting that selecting where to distill is a key factor for both effective and efficient long-horizon agent training.