HINT-SD: Gezielte Rückschau-Selbstdestillation für Agenten mit langem Zeithorizont

Zusammenfassung

Das Training von LLM-Agenten für langfristige Aufgaben mit verstärkendem Lernen ist herausfordernd, da spärliche Ergebnisbelohnungen zwar anzeigen, ob eine Aufgabe erfolgreich ist, aber nicht, welche Zwischenaktionen zum Ergebnis geführt haben oder wie sie korrigiert werden sollten. Neuere Methoden mildern dieses Problem, indem sie Belohnungen oder textuelle Hinweise aus schrittweisen Aktions-Output-Signalen erzeugen oder durch feedback-konditionierte Selbstdestillation. Allerdings ist das Erzeugen von Feedback bei jedem Schritt ineffizient, wenn viele Zwischenschritte bereits erfolgreich oder neutral sind, und die Anwendung von Feedback auf einen festen oder falsch ausgerichteten Schritt führt oft dazu, dass die Aktionen, die zum Scheitern beigetragen haben, nicht überwacht werden. Um diese Lücke zu schließen, schlagen wir HINT-SD vor, ein gezieltes Selbstdestillations-Framework, das durch Rückblick auf die gesamte Trajektorie fehlerrelevante Aktionen auswählt und feedback-konditionierte Destillation nur auf gezielten Aktionsspannen anwendet. Experimente auf BFCL v3 und AppWorld zeigen, dass unsere Methode den dichten, schrittweisen Feedback-Baseline um bis zu 18,80 % übertrifft und dabei eine 2,26-fach geringere Zeit pro Trainingsschritt erreicht, was darauf hindeutet, dass die Auswahl der Destillationsstellen ein Schlüsselfaktor für ein sowohl effektives als auch effizientes langfristiges Agententraining ist.

English

Training long-horizon LLM agents with reinforcement learning is challenging because sparse outcome rewards reveal whether a task succeeds, but not which intermediate actions caused the outcome or how they should be corrected. Recent methods alleviate this issue by generating rewards or textual hints from turn-level action-output signals, or by using feedback-conditioned self-distillation. However, generating feedback at every turn is inefficient when many intermediate turns are already successful or neutral, and applying feedback at a fixed or misaligned turn often fails to supervise the actions that contributed to the failure. To bridge this gap, we propose HINT-SD, a targeted self-distillation framework that uses full-trajectory hindsight to select failure-relevant actions and applies feedback-conditioned distillation only on targeted action spans. Experiments on BFCL v3 and AppWorld show that our method improves over the dense per-turn feedback baseline by up to 18.80 percent while achieving 2.26times lower time per training step, suggesting that selecting where to distill is a key factor for both effective and efficient long-horizon agent training.