Robuste Werkzeugnutzung durch Fission-GRPO: Erlernen der Wiederherstellung nach Ausführungsfehlern

papers.abstract

Große Sprachmodelle (LLMs) können Werkzeuge effektiv aufrufen, bleiben jedoch in der Mehrschritt-Ausführung anfällig: Nach einem Werkzeugaufruffehler degenerieren kleinere Modelle oft zu repetitiven, ungültigen Wiederholungsaufrufen, da sie nicht in der Lage sind, Fehlerrückmeldungen zu interpretieren und sich selbst zu korrigieren. Diese Anfälligkeit behindert den zuverlässigen Einsatz in der Praxis, wo Ausführungsfehler während der Werkzeuginteraktionen inhärent unvermeidlich sind. Wir identifizieren eine zentrale Schwäche aktueller Ansätze: Standardmäßiges bestärkendes Lernen (RL) behandelt Fehler als spärliche negative Belohnungen, bietet aber keine Anleitung zur Fehlerbehebung, während vorab gesammelte synthetische Fehlerkorrektur-Datensätze unter einer Verteilungsdiskongruenz zu den on-policy-Fehlermodi des Modells leiden. Um diese Lücke zu schließen, schlagen wir Fission-GRPO vor, einen Rahmen, der Ausführungsfehler in korrektive Supervision innerhalb der RL-Trainingsschleife umwandelt. Unser Kernmechanismus spaltet jede fehlgeschlagene Trajektorie durch Anreicherung mit diagnostischem Feedback eines feinabgestimmten Fehlersimulators in eine neue Trainingsinstanz auf und resampelt dann on-policy-Wiederherstellungsrollouts. Dies ermöglicht es dem Modell, aus den spezifischen Fehlern zu lernen, die es während der Exploration macht, anhand statischer, vorab gesammelter Fehlerfälle. Auf BFCL v4 Multi-Turn verbessert Fission-GRPO die Fehlerwiederherstellungsrate von Qwen3-8B um absolut 5,7 % und erzielt dabei entscheidend einen Gesamtgenauigkeitsgewinn von 4 % (42,75 % zu 46,75 %) gegenüber GRPO, wobei es spezialisierte Werkzeugnutzungs-Agenten übertrifft.

English

Large language models (LLMs) can call tools effectively, yet they remain brittle in multi-turn execution: following a tool call error, smaller models often degenerate into repetitive invalid re-invocations, failing to interpret error feedback and self-correct. This brittleness hinders reliable real-world deployment, where the execution errors are inherently inevitable during tool interaction procedures. We identify a key limitation of current approaches: standard reinforcement learning (RL) treats errors as sparse negative rewards, providing no guidance on how to recover, while pre-collected synthetic error-correction datasets suffer from distribution mismatch with the model's on-policy error modes. To bridge this gap, we propose Fission-GRPO, a framework that converts execution errors into corrective supervision within the RL training loop. Our core mechanism fissions each failed trajectory into a new training instance by augmenting it with diagnostic feedback from a finetuned Error Simulator, then resampling recovery rollouts on-policy. This enables the model to learn from the precise errors it makes during exploration, rather than from static, pre-collected error cases. On the BFCL v4 Multi-Turn, Fission-GRPO improves the error recovery rate of Qwen3-8B by 5.7% absolute, crucially, yielding a 4% overall accuracy gain (42.75% to 46.75%) over GRPO and outperforming specialized tool-use agents.

Robuste Werkzeugnutzung durch Fission-GRPO: Erlernen der Wiederherstellung nach Ausführungsfehlern

Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors

papers.abstract

Support