ChatPaper.aiChatPaper

堅牢な道具使用の実現:Fission-GRPOによる実行エラーからの回復学習

Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors

January 22, 2026
著者: Zhiwei Zhang, Fei Zhao, Rui Wang, Zezhong Wang, Bin Liang, Jiakang Wang, Yao Hu, Shaosheng Cao, Kam-Fai Wong
cs.AI

要旨

大規模言語モデル(LLM)はツールを効果的に呼び出せる一方で、マルチターン実行においては依然として脆弱性を抱えている。ツール呼び出しエラー発生後、小規模モデルはしばしば反復的な無効な再呼び出しに陥り、エラーフィードバックを解釈して自己修正することができない。この脆弱性は、ツール相互作用プロセスにおいて実行エラーが本質的に不可避である現実世界での信頼性の高い展開を妨げている。我々は現在のアプローチの重要な限界を特定した。標準的な強化学習(RL)はエラーを疎な負の報酬として扱うため、回復方法に関する指針を提供せず、事前収集された合成誤り修正データセットは、モデルのオンポリシーなエラーモードとの分布ミスマッチに悩まされる。このギャップを埋めるため、我々は実行エラーをRL訓練ループ内で修正的な監督信号に変換するフレームワークであるFission-GRPOを提案する。本手法の中核メカニズムは、微調整されたエラーシミュレータからの診断的フィードバックで失敗した軌道を拡張し、オンポリシーで回復ロールアウトを再サンプリングすることで、各失敗軌道を新しい訓練インスタンスに分割する。これにより、モデルは静的な事前収集エラー事例からではなく、探索中に発生した正確なエラーから学習することが可能となる。BFCL v4マルチターン環境において、Fission-GRPOはQwen3-8Bのエラー回復率を5.7%絶対値で改善し、決定的に、GRPOに対し4%の総合精度向上(42.75%から46.75%)をもたらし、専門的なツール利用エージェントを上回る性能を示した。
English
Large language models (LLMs) can call tools effectively, yet they remain brittle in multi-turn execution: following a tool call error, smaller models often degenerate into repetitive invalid re-invocations, failing to interpret error feedback and self-correct. This brittleness hinders reliable real-world deployment, where the execution errors are inherently inevitable during tool interaction procedures. We identify a key limitation of current approaches: standard reinforcement learning (RL) treats errors as sparse negative rewards, providing no guidance on how to recover, while pre-collected synthetic error-correction datasets suffer from distribution mismatch with the model's on-policy error modes. To bridge this gap, we propose Fission-GRPO, a framework that converts execution errors into corrective supervision within the RL training loop. Our core mechanism fissions each failed trajectory into a new training instance by augmenting it with diagnostic feedback from a finetuned Error Simulator, then resampling recovery rollouts on-policy. This enables the model to learn from the precise errors it makes during exploration, rather than from static, pre-collected error cases. On the BFCL v4 Multi-Turn, Fission-GRPO improves the error recovery rate of Qwen3-8B by 5.7% absolute, crucially, yielding a 4% overall accuracy gain (42.75% to 46.75%) over GRPO and outperforming specialized tool-use agents.
PDF32February 3, 2026