HINT-SD: Целенаправленная ретроспективная самодистилляция для агентов с долгосрочным горизонтом

Аннотация

Обучение агентов LLM с длинным горизонтом с использованием обучения с подкреплением представляет сложность, поскольку разреженные вознаграждения за результат показывают, успешна ли задача, но не указывают, какие промежуточные действия привели к этому результату или как их следует скорректировать. Современные методы смягчают эту проблему, генерируя вознаграждения или текстовые подсказки на основе сигналов на уровне действий и результатов каждого шага, либо используя само-дистилляцию с учетом обратной связи. Однако генерация обратной связи на каждом шаге неэффективна, когда многие промежуточные шаги уже успешны или нейтральны, а применение обратной связи на фиксированном или неверно выбранном шаге часто не позволяет контролировать действия, способствовавшие неудаче. Для устранения этого разрыва мы предлагаем HINT-SD — целевую структуру само-дистилляции, которая использует ретроспективный анализ всей траектории для выбора действий, релевантных для неудачи, и применяет дистилляцию с учетом обратной связи только на целевых промежутках действий. Эксперименты на BFCL v3 и AppWorld показывают, что наш метод превосходит базовый метод с плотной обратной связью на каждом шаге на величину до 18,80 процентов, одновременно достигая в 2,26 раза меньшего времени на шаг обучения, что позволяет предположить, что выбор места для дистилляции является ключевым фактором как для эффективного, так и для экономичного обучения агентов с длинным горизонтом.

English

Training long-horizon LLM agents with reinforcement learning is challenging because sparse outcome rewards reveal whether a task succeeds, but not which intermediate actions caused the outcome or how they should be corrected. Recent methods alleviate this issue by generating rewards or textual hints from turn-level action-output signals, or by using feedback-conditioned self-distillation. However, generating feedback at every turn is inefficient when many intermediate turns are already successful or neutral, and applying feedback at a fixed or misaligned turn often fails to supervise the actions that contributed to the failure. To bridge this gap, we propose HINT-SD, a targeted self-distillation framework that uses full-trajectory hindsight to select failure-relevant actions and applies feedback-conditioned distillation only on targeted action spans. Experiments on BFCL v3 and AppWorld show that our method improves over the dense per-turn feedback baseline by up to 18.80 percent while achieving 2.26times lower time per training step, suggesting that selecting where to distill is a key factor for both effective and efficient long-horizon agent training.