Uso Robusto de Ferramentas via Fission-GRPO: Aprendendo a Recuperar-se de Erros de Execução

Resumo

Os grandes modelos de linguagem (LLMs) conseguem invocar ferramentas de forma eficaz, mas permanecem frágeis na execução multi-turno: após um erro de chamada de ferramenta, modelos menores frequentemente degeneram em reinvocações inválidas e repetitivas, falhando em interpretar o *feedback* de erro e autocorrigir-se. Essa fragilidade dificulta a implantação confiável no mundo real, onde os erros de execução são inerentemente inevitáveis durante os procedimentos de interação com ferramentas. Identificamos uma limitação fundamental das abordagens atuais: o reforço de aprendizagem (RL) padrão trata os erros como recompensas negativas esparsas, não fornecendo orientação sobre como recuperar-se, enquanto conjuntos de dados sintéticos de correção de erros pré-coletados sofrem com desvio de distribuição em relação aos modos de erro *on-policy* do modelo. Para preencher essa lacuna, propomos o Fission-GRPO, uma estrutura que converte erros de execução em supervisão corretiva dentro do ciclo de treinamento de RL. Nosso mecanismo central fissiona cada trajetória falhada em uma nova instância de treinamento, aumentando-a com *feedback* diagnóstico de um Simulador de Erros afinado (*finetuned*), e então reamostrando *rollouts* de recuperação *on-policy*. Isso permite que o modelo aprenda com os erros precisos que comete durante a exploração, em vez de casos de erro estáticos e pré-coletados. No BFCL v4 Multi-Turn, o Fission-GRPO melhora a taxa de recuperação de erros do Qwen3-8B em 5,7% absolutos e, crucialmente, produz um ganho de precisão geral de 4% (42,75% para 46,75%) em relação ao GRPO, superando agentes especializados em uso de ferramentas.

English

Large language models (LLMs) can call tools effectively, yet they remain brittle in multi-turn execution: following a tool call error, smaller models often degenerate into repetitive invalid re-invocations, failing to interpret error feedback and self-correct. This brittleness hinders reliable real-world deployment, where the execution errors are inherently inevitable during tool interaction procedures. We identify a key limitation of current approaches: standard reinforcement learning (RL) treats errors as sparse negative rewards, providing no guidance on how to recover, while pre-collected synthetic error-correction datasets suffer from distribution mismatch with the model's on-policy error modes. To bridge this gap, we propose Fission-GRPO, a framework that converts execution errors into corrective supervision within the RL training loop. Our core mechanism fissions each failed trajectory into a new training instance by augmenting it with diagnostic feedback from a finetuned Error Simulator, then resampling recovery rollouts on-policy. This enables the model to learn from the precise errors it makes during exploration, rather than from static, pre-collected error cases. On the BFCL v4 Multi-Turn, Fission-GRPO improves the error recovery rate of Qwen3-8B by 5.7% absolute, crucially, yielding a 4% overall accuracy gain (42.75% to 46.75%) over GRPO and outperforming specialized tool-use agents.

Uso Robusto de Ferramentas via Fission-GRPO: Aprendendo a Recuperar-se de Erros de Execução

Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors

Resumo

Support