Устойчивое использование инструментов с помощью Fission-GRPO: Обучение восстановлению после ошибок выполнения

Аннотация

Крупные языковые модели (LLM) эффективно используют инструменты, однако остаются уязвимыми при многошаговом выполнении: после ошибки вызова инструмента небольшие модели часто деградируют до повторяющихся некорректных попыток, неспособных интерпретировать сообщения об ошибках и самокорректироваться. Эта хрупкость препятствует надежному практическому применению, поскольку ошибки выполнения неизбежны в процессах взаимодействия с инструментами. Мы выявляем ключевое ограничение современных подходов: стандартное обучение с подкреплением (RL) трактует ошибки как редкие негативные вознаграждения, не давая указаний по восстановлению, а предварительно собранные синтетические наборы данных для коррекции ошибок страдают от расхождения распределений с реальными ошибками модели в процессе эксплуатации. Для преодоления этого разрыва мы предлагаем Fission-GRPO — фреймворк, преобразующий ошибки выполнения в корректирующие инструкции внутри цикла RL-обучения. Наш ключевой механизм расщепляет каждый неудачный траекторий на новый обучающий пример, дополняя его диагностической обратной связью от дообученного симулятора ошибок, и повторно сэмплирует траектории восстановления в соответствии с текущей политикой. Это позволяет модели обучаться на конкретных ошибках, возникающих в процессе исследования, а не на статических, заранее собранных случаях. На тесте BFCL v4 Multi-Turn метод Fission-GRPO повышает показатель восстановления после ошибок для модели Qwen3-8B на 5.7% в абсолютных значениях, что критически важно — обеспечивает общий прирост точности на 4% (с 42.75% до 46.75%) по сравнению с GRPO и превосходит специализированные агенты для работы с инструментами.

English

Large language models (LLMs) can call tools effectively, yet they remain brittle in multi-turn execution: following a tool call error, smaller models often degenerate into repetitive invalid re-invocations, failing to interpret error feedback and self-correct. This brittleness hinders reliable real-world deployment, where the execution errors are inherently inevitable during tool interaction procedures. We identify a key limitation of current approaches: standard reinforcement learning (RL) treats errors as sparse negative rewards, providing no guidance on how to recover, while pre-collected synthetic error-correction datasets suffer from distribution mismatch with the model's on-policy error modes. To bridge this gap, we propose Fission-GRPO, a framework that converts execution errors into corrective supervision within the RL training loop. Our core mechanism fissions each failed trajectory into a new training instance by augmenting it with diagnostic feedback from a finetuned Error Simulator, then resampling recovery rollouts on-policy. This enables the model to learn from the precise errors it makes during exploration, rather than from static, pre-collected error cases. On the BFCL v4 Multi-Turn, Fission-GRPO improves the error recovery rate of Qwen3-8B by 5.7% absolute, crucially, yielding a 4% overall accuracy gain (42.75% to 46.75%) over GRPO and outperforming specialized tool-use agents.

Устойчивое использование инструментов с помощью Fission-GRPO: Обучение восстановлению после ошибок выполнения

Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors

Аннотация

Support