ChatPaper.aiChatPaper

강건한 도구 사용: Fission-GRPO를 통한 실행 오류 복구 학습

Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors

January 22, 2026
저자: Zhiwei Zhang, Fei Zhao, Rui Wang, Zezhong Wang, Bin Liang, Jiakang Wang, Yao Hu, Shaosheng Cao, Kam-Fai Wong
cs.AI

초록

대규모 언어 모델(LLM)은 도구를 효과적으로 호출할 수 있지만, 다중 턴 실행에서는 여전히 취약합니다: 도구 호출 오류 이후 소규모 모델은 종종 반복적인 무효 재호출로 퇴화하여 오류 피드백을 해석하고 자체 수정하는 데 실패합니다. 이러한 취약성은 도구 상호 작용 과정에서 실행 오류가 본질적으로 불가피한 실제 환경에서의 신뢰할 수 있는 배포를 저해합니다. 우리는 현재 접근법의 핵심 한계를 확인했습니다: 표준 강화 학습(RL)은 오류를 희소한 부정적 보상으로 처리하여 복구 방법에 대한 지침을 제공하지 않는 반면, 사전 수집된 합성 오류 수정 데이터셋은 모델의 온-정책 오류 모드와의 분포 불일치 문제를 겪습니다. 이러한 격차를 해소하기 위해 우리는 RL 훈련 루프 내에서 실행 오류를 교정 지도로 전환하는 Fission-GRPO 프레임워크를 제안합니다. 우리의 핵심 메커니즘은 미세 조정된 오류 시뮬레이터의 진단 피드백을 추가하여 각 실패한 궤적을 새로운 훈련 인스턴스로 분열시키고, 온-정책 방식으로 복구 롤아웃을 재샘플링합니다. 이를 통해 모델은 정적이고 사전 수집된 오류 사례가 아닌, 탐색 과정에서 발생한 정확한 오류로부터 학습할 수 있습니다. BFCL v4 Multi-Turn 벤치마크에서 Fission-GRPO는 Qwen3-8B의 오류 복구율을 5.7% 절대적으로 향상시켰으며, 결정적으로 GRPO 대비 4%의 전체 정확도 향상(42.75% → 46.75%)을 이루며 특화된 도구 사용 에이전트들을 능가했습니다.
English
Large language models (LLMs) can call tools effectively, yet they remain brittle in multi-turn execution: following a tool call error, smaller models often degenerate into repetitive invalid re-invocations, failing to interpret error feedback and self-correct. This brittleness hinders reliable real-world deployment, where the execution errors are inherently inevitable during tool interaction procedures. We identify a key limitation of current approaches: standard reinforcement learning (RL) treats errors as sparse negative rewards, providing no guidance on how to recover, while pre-collected synthetic error-correction datasets suffer from distribution mismatch with the model's on-policy error modes. To bridge this gap, we propose Fission-GRPO, a framework that converts execution errors into corrective supervision within the RL training loop. Our core mechanism fissions each failed trajectory into a new training instance by augmenting it with diagnostic feedback from a finetuned Error Simulator, then resampling recovery rollouts on-policy. This enables the model to learn from the precise errors it makes during exploration, rather than from static, pre-collected error cases. On the BFCL v4 Multi-Turn, Fission-GRPO improves the error recovery rate of Qwen3-8B by 5.7% absolute, crucially, yielding a 4% overall accuracy gain (42.75% to 46.75%) over GRPO and outperforming specialized tool-use agents.
PDF32February 3, 2026