FunReason-MT 기술 보고서: 멀티턴 함수 호출의 복잡성 장벽 극복
FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling
October 28, 2025
저자: Zengzhuang Xu, Bingguang Hao, Zechuan Wang, Yuntao Wen, Maolin Wang, Yang Liu, Long Chen, Dong Wang, Yicheng Chen, Cunyin Peng, Chenyi Zhuang, Jinjie Gu, Leilei Gan, Xiangyu Zhao, Shi Gu
cs.AI
초록
함수 호출(FC)은 대규모 언어 모델(LLM)과 자율 에이전트가 외부 도구와 상호작용할 수 있게 하는 핵심 능력으로, 복잡한 현실 세계 문제 해결에 필수적입니다. 이러한 능력이 고급 AI 시스템에서 점점 더 중심적인 역할을 함에 따라, 이를 개발하고 개선하기 위한 고품질의 다중 턴 학습 데이터 필요성은 아무리 강조해도 지나치지 않습니다. 기존의 무작위 환경 샘플링이나 다중 에이전트 역할 수행과 같은 데이터 합성 방법론은 현실 세계 환경에서 고품질 데이터를 생성하기에는 역부족입니다. 실제적인 과제는 세 가지로 요약됩니다: 목표 지향적 모델 학습, 도구 아키텍처의 분리, 그리고 다중 턴 논리적 의존성입니다. 이러한 구조적 한계를 해결하기 위해, 우리는 현실 세계 다중 턴 도구 사용을 위한 새로운 데이터 합성 프레임워크인 FunReason-MT를 제시합니다. FunReason-MT는 1) 환경-API 그래프 상호작용을 통한 다양하고 고품질의 경로 수집, 2) 복잡한 쿼리 구성을 간소화하는 고급 도구-쿼리 합성, 3) 정교한 사고 연쇄(CoT) 생성을 위한 지도 반복 체인을 활용하여 다중 턴 FC 데이터의 복잡성 장벽을 해결합니다. Berkeley Function-Calling Leaderboard(BFCLv3)에서의 평가는 우리 프레임워크의 성능을 입증합니다: FunReason-MT로 생성된 데이터로 구축된 40억 파라미터 모델이 동일 규모 모델 중 최첨단 성능을 달성하며 대부분의 비공개 모델을 능가했습니다. BFCLv4에서의 추가적인 성능 향상은 FunReason-MT가 에이전트 학습을 위한 신뢰할 수 있고 강력한 원천을 제공함을 확인시켜 줍니다.
English
Function calling (FC) empowers large language models (LLMs) and autonomous
agents to interface with external tools, a critical capability for solving
complex, real-world problems. As this ability becomes increasingly central to
advanced AI systems, the need for high-quality, multi-turn training data to
develop and refine it cannot be overstated. Existing data synthesis methods,
such as random environment sampling or multi-agent role-playing, are not
powerful enough to generate high-quality data in real-world environments.
Practical challenges come in three folds: targeted model training, isolation of
tool architecture, and multi-turn logical dependency. To address these
structural deficiencies, we present FunReason-MT, a novel data synthesis
framework for real-world multi-turn tool use. FunReason-MT resolves the
complexity barrier in multi-turn FC data by employing 1) Environment-API Graph
Interactions to gather varied high-quality trajectories, 2) Advanced Tool-Query
Synthesis to simplify hard query construction, and 3) Guided Iterative Chain
for sophisticated CoT generation. Evaluations on Berkeley Function-Calling
Leaderboard (BFCLv3) demonstrate the power of our framework: a 4B model built
upon FunReason-MT generated data achieves state-of-the-art performance among
comparable-sized models, outperforming most close-source models. Further
performance improvements on BFCLv4 confirm that FunReason-MT provides a
reliable and robust source for agentic learning.