Utilizzo Robusto degli Strumenti tramite Fission-GRPO: Imparare a Recuperare dagli Errori di Esecuzione

Abstract

I grandi modelli linguistici (LLM) sono in grado di richiamare strumenti in modo efficace, ma rimangono fragili nell'esecuzione multi-turn: dopo un errore di chiamata di uno strumento, i modelli più piccoli spesso degenerano in reinvocazioni ripetitive e non valide, non riuscendo a interpretare il feedback di errore e ad autocorreggersi. Questa fragilità ostacola un deployment affidabile nel mondo reale, dove gli errori di esecuzione sono intrinsecamente inevitabili durante le procedure di interazione con gli strumenti. Identifichiamo una limitazione chiave degli approcci attuali: il reinforcement learning (RL) standard tratta gli errori come ricompense negative sparse, senza fornire indicazioni su come recuperare, mentre i dataset sintetici di correzione degli errori pre-raccolti soffrono di uno scostamento distributivo rispetto alle modalità di errore on-policy del modello. Per colmare questa lacuna, proponiamo Fission-GRPO, un framework che converte gli errori di esecuzione in supervisione correttiva all'interno del ciclo di addestramento RL. Il nostro meccanismo centrale scinde (fissions) ogni traiettoria fallita in una nuova istanza di addestramento arricchendola con un feedback diagnostico da un Simulatore di Errori messo a punto (finetuned), per poi ricampionare rollout di recupero on-policy. Ciò consente al modello di apprendere dagli errori specifici che commette durante l'esplorazione, anziché da casi di errore statici e pre-raccolti. Sul benchmark BFCL v4 Multi-Turn, Fission-GRPO migliora il tasso di recupero degli errori di Qwen3-8B del 5.7% in valore assoluto e, aspetto cruciale, produce un guadagno complessivo di accuratezza del 4% (dal 42.75% al 46.75%) rispetto al GRPO, superando anche agenti specializzati nell'uso di strumenti.

English

Large language models (LLMs) can call tools effectively, yet they remain brittle in multi-turn execution: following a tool call error, smaller models often degenerate into repetitive invalid re-invocations, failing to interpret error feedback and self-correct. This brittleness hinders reliable real-world deployment, where the execution errors are inherently inevitable during tool interaction procedures. We identify a key limitation of current approaches: standard reinforcement learning (RL) treats errors as sparse negative rewards, providing no guidance on how to recover, while pre-collected synthetic error-correction datasets suffer from distribution mismatch with the model's on-policy error modes. To bridge this gap, we propose Fission-GRPO, a framework that converts execution errors into corrective supervision within the RL training loop. Our core mechanism fissions each failed trajectory into a new training instance by augmenting it with diagnostic feedback from a finetuned Error Simulator, then resampling recovery rollouts on-policy. This enables the model to learn from the precise errors it makes during exploration, rather than from static, pre-collected error cases. On the BFCL v4 Multi-Turn, Fission-GRPO improves the error recovery rate of Qwen3-8B by 5.7% absolute, crucially, yielding a 4% overall accuracy gain (42.75% to 46.75%) over GRPO and outperforming specialized tool-use agents.

Utilizzo Robusto degli Strumenti tramite Fission-GRPO: Imparare a Recuperare dagli Errori di Esecuzione

Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors

Abstract

Support