HINT-SD: Gerichte Hindsight Self-Distillation voor Agenten met een Lange Horizon

Samenvatting

Het trainen van LLM-agenten met een lange horizon met behulp van reinforcement learning is uitdagend omdat schaarse uitkomstrewards wel aangeven of een taak slaagt, maar niet welke tussenliggende acties tot de uitkomst hebben geleid of hoe ze gecorrigeerd moeten worden. Recente methoden verlichten dit probleem door rewards of tekstuele hints te genereren op basis van actie-uitvoer-signalen op beurtniveau, of door feedback-geconditioneerde zelfdistillatie toe te passen. Het genereren van feedback bij elke beurt is echter inefficiënt wanneer veel tussenliggende beurten al succesvol of neutraal zijn, en het toepassen van feedback op een vaste of niet-passende beurt slaagt er vaak niet in om de acties die bijdragen aan het falen te superviseren. Om deze kloof te overbruggen stellen wij HINT-SD voor, een gericht zelfdistillatiekader dat gebruikmaakt van volledige traject-hindsight om faalrelevante acties te selecteren en feedback-geconditioneerde distillatie alleen op gerichte actiesegmenten toepast. Experimenten op BFCL v3 en AppWorld tonen aan dat onze methode de dichte per-beurt feedbackbaseline met tot 18,80 procent verbetert, terwijl de tijd per trainingsstap 2,26 keer lager is, wat suggereert dat het selecteren van waar te distilleren een sleutelfactor is voor zowel effectieve als efficiënte training van agenten met een lange horizon.

English

Training long-horizon LLM agents with reinforcement learning is challenging because sparse outcome rewards reveal whether a task succeeds, but not which intermediate actions caused the outcome or how they should be corrected. Recent methods alleviate this issue by generating rewards or textual hints from turn-level action-output signals, or by using feedback-conditioned self-distillation. However, generating feedback at every turn is inefficient when many intermediate turns are already successful or neutral, and applying feedback at a fixed or misaligned turn often fails to supervise the actions that contributed to the failure. To bridge this gap, we propose HINT-SD, a targeted self-distillation framework that uses full-trajectory hindsight to select failure-relevant actions and applies feedback-conditioned distillation only on targeted action spans. Experiments on BFCL v3 and AppWorld show that our method improves over the dense per-turn feedback baseline by up to 18.80 percent while achieving 2.26times lower time per training step, suggesting that selecting where to distill is a key factor for both effective and efficient long-horizon agent training.