Uso Robusto de Herramientas mediante Fisión-GRPO: Aprendiendo a Recuperarse de Errores de Ejecución

Resumen

Los grandes modelos de lenguaje (LLM) pueden invocar herramientas de manera efectiva, pero siguen siendo frágiles en la ejecución multiturno: tras un error en la llamada a una herramienta, los modelos más pequeños a menudo degeneran en reinvocaciones inválidas y repetitivas, sin lograr interpretar la retroalimentación del error ni autocorregirse. Esta fragilidad dificulta el despliegue confiable en entornos reales, donde los errores de ejecución son inherentemente inevitables durante los procedimientos de interacción con herramientas. Identificamos una limitación clave de los enfoques actuales: el aprendizaje por refuerzo (RL) estándar trata los errores como recompensas negativas dispersas, sin proporcionar orientación sobre cómo recuperarse, mientras que los conjuntos de datos sintéticos de corrección de errores recolectados previamente sufren de un desajuste distribucional con los modos de error on-policy del modelo. Para cerrar esta brecha, proponemos Fission-GRPO, un marco que convierte los errores de ejecución en supervisión correctiva dentro del bucle de entrenamiento de RL. Nuestro mecanismo central divide (fissiona) cada trayectoria fallida en una nueva instancia de entrenamiento, aumentándola con retroalimentación diagnóstica de un Simulador de Errores ajustado mediante fine-tuning, y luego remuestrea trayectorias de recuperación on-policy. Esto permite al modelo aprender de los errores precisos que comete durante la exploración, en lugar de hacerlo de casos de error estáticos previamente recolectados. En el benchmark BFCL v4 Multi-Turn, Fission-GRPO mejora la tasa de recuperación de errores de Qwen3-8B en un 5.7% absoluto y, crucialmente, produce una ganancia de precisión general del 4% (42.75% a 46.75%) sobre GRPO, superando a agentes especializados en el uso de herramientas.

English

Large language models (LLMs) can call tools effectively, yet they remain brittle in multi-turn execution: following a tool call error, smaller models often degenerate into repetitive invalid re-invocations, failing to interpret error feedback and self-correct. This brittleness hinders reliable real-world deployment, where the execution errors are inherently inevitable during tool interaction procedures. We identify a key limitation of current approaches: standard reinforcement learning (RL) treats errors as sparse negative rewards, providing no guidance on how to recover, while pre-collected synthetic error-correction datasets suffer from distribution mismatch with the model's on-policy error modes. To bridge this gap, we propose Fission-GRPO, a framework that converts execution errors into corrective supervision within the RL training loop. Our core mechanism fissions each failed trajectory into a new training instance by augmenting it with diagnostic feedback from a finetuned Error Simulator, then resampling recovery rollouts on-policy. This enables the model to learn from the precise errors it makes during exploration, rather than from static, pre-collected error cases. On the BFCL v4 Multi-Turn, Fission-GRPO improves the error recovery rate of Qwen3-8B by 5.7% absolute, crucially, yielding a 4% overall accuracy gain (42.75% to 46.75%) over GRPO and outperforming specialized tool-use agents.

Uso Robusto de Herramientas mediante Fisión-GRPO: Aprendiendo a Recuperarse de Errores de Ejecución

Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors

Resumen

Support