Robust Gereedschapsgebruik via Fission-GRPO: Leren Herstellen van Uitvoeringsfouten

Samenvatting

Grote taalmmodellen (LLM's) kunnen tools effectief aanroepen, maar blijven broos in multi-turn uitvoering: na een toolaanroepfout vervallen kleinere modellen vaak in repetitieve ongeldige herroepingen, waarbij ze er niet in slagen foutfeedback te interpreteren en zichzelf te corrigeren. Deze broosheid belemmert een betrouwbare inzet in de praktijk, waar uitvoeringsfouten onvermijdelijk zijn tijdens toolinteractieprocedures. Wij identificeren een belangrijke beperking van huidige aanpakken: standaard reinforcement learning (RL) behandelt fouten als schaarse negatieve beloningen, zonder richting te geven over herstel, terwijl vooraf verzamelde synthetische foutcorrectiedatasets lijden onder distributiemismatch met de on-policy foutmodi van het model. Om deze kloof te overbruggen, stellen we Fission-GRPO voor, een framework dat uitvoeringsfouten omzet in corrigerende supervisie binnen de RL-trainingslus. Ons kernmechanisme splitst elke mislukte trajectorie in een nieuwe trainingsinstantie door deze aan te vullen met diagnostische feedback van een fijnafgestelde Foutsimulator, en vervolgens herstelrollouts on-policy te herbemonsteren. Hierdoor leert het model van de precieze fouten die het maakt tijdens exploratie, in plaats van uit statische, vooraf verzamelde foutgevallen. Op BFCL v4 Multi-Turn verbetert Fission-GRPO het foutherstelpercentage van Qwen3-8B met absoluut 5,7%, en levert cruciaal een algemene nauwkeurigheidswinst op van 4% (van 42,75% naar 46,75%) ten opzichte van GRPO, waarbij het gespecialiseerde tool-use agents overtreft.

English

Large language models (LLMs) can call tools effectively, yet they remain brittle in multi-turn execution: following a tool call error, smaller models often degenerate into repetitive invalid re-invocations, failing to interpret error feedback and self-correct. This brittleness hinders reliable real-world deployment, where the execution errors are inherently inevitable during tool interaction procedures. We identify a key limitation of current approaches: standard reinforcement learning (RL) treats errors as sparse negative rewards, providing no guidance on how to recover, while pre-collected synthetic error-correction datasets suffer from distribution mismatch with the model's on-policy error modes. To bridge this gap, we propose Fission-GRPO, a framework that converts execution errors into corrective supervision within the RL training loop. Our core mechanism fissions each failed trajectory into a new training instance by augmenting it with diagnostic feedback from a finetuned Error Simulator, then resampling recovery rollouts on-policy. This enables the model to learn from the precise errors it makes during exploration, rather than from static, pre-collected error cases. On the BFCL v4 Multi-Turn, Fission-GRPO improves the error recovery rate of Qwen3-8B by 5.7% absolute, crucially, yielding a 4% overall accuracy gain (42.75% to 46.75%) over GRPO and outperforming specialized tool-use agents.

Robust Gereedschapsgebruik via Fission-GRPO: Leren Herstellen van Uitvoeringsfouten

Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors

Samenvatting

Support