Utilisation Robuste d'Outils via Fission-GRPO : Apprendre à Récupérer après des Erreurs d'Exécution

papers.abstract

Les grands modèles de langage (LLM) peuvent appeler efficacement des outils, mais leur exécution multi-tours reste fragile : suite à une erreur d'appel d'outil, les modèles plus petits dégénèrent souvent en des ré-invocations invalides et répétitives, échouant à interpréter les retours d'erreur et à s'auto-corriger. Cette fragilité entrave le déploiement fiable dans des scénarios réels, où les erreurs d'exécution sont intrinsèquement inévitables lors des procédures d'interaction avec les outils. Nous identifions une limitation clé des approches actuelles : l'apprentissage par renforcement (RL) standard traite les erreurs comme des récompenses négatives éparses, ne fournissant aucune guidance sur la manière de récupérer, tandis que les ensembles de données synthétiques de correction d'erreurs pré-collectés souffrent d'un décalage de distribution avec les modes d'erreur *on-policy* du modèle. Pour combler cette lacune, nous proposons Fission-GRPO, un cadre qui convertit les erreurs d'exécution en une supervision corrective dans la boucle d'entraînement par RL. Notre mécanisme central fissionne chaque trajectoire échouée en une nouvelle instance d'entraînement en l'augmentant avec un retour diagnostique d'un Simulateur d'Erreur *finetuné*, puis rééchantillonne des *rollouts* de récupération *on-policy*. Cela permet au modèle d'apprendre des erreurs précises qu'il commet durant l'exploration, plutôt qu'à partir de cas d'erreur statiques pré-collectés. Sur BFCL v4 Multi-Turn, Fission-GRPO améliore le taux de récupération d'erreur de Qwen3-8B de 5.7% en valeur absolue et, crucialement, produit un gain de précision globale de 4% (de 42.75% à 46.75%) par rapport à GRPO, surpassant les agents spécialisés dans l'utilisation d'outils.

English

Large language models (LLMs) can call tools effectively, yet they remain brittle in multi-turn execution: following a tool call error, smaller models often degenerate into repetitive invalid re-invocations, failing to interpret error feedback and self-correct. This brittleness hinders reliable real-world deployment, where the execution errors are inherently inevitable during tool interaction procedures. We identify a key limitation of current approaches: standard reinforcement learning (RL) treats errors as sparse negative rewards, providing no guidance on how to recover, while pre-collected synthetic error-correction datasets suffer from distribution mismatch with the model's on-policy error modes. To bridge this gap, we propose Fission-GRPO, a framework that converts execution errors into corrective supervision within the RL training loop. Our core mechanism fissions each failed trajectory into a new training instance by augmenting it with diagnostic feedback from a finetuned Error Simulator, then resampling recovery rollouts on-policy. This enables the model to learn from the precise errors it makes during exploration, rather than from static, pre-collected error cases. On the BFCL v4 Multi-Turn, Fission-GRPO improves the error recovery rate of Qwen3-8B by 5.7% absolute, crucially, yielding a 4% overall accuracy gain (42.75% to 46.75%) over GRPO and outperforming specialized tool-use agents.

Utilisation Robuste d'Outils via Fission-GRPO : Apprendre à Récupérer après des Erreurs d'Exécution

Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors

papers.abstract

Support