FunReason-MT技術報告書:マルチターン関数呼び出しにおける複雑性の壁の克服
FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling
October 28, 2025
著者: Zengzhuang Xu, Bingguang Hao, Zechuan Wang, Yuntao Wen, Maolin Wang, Yang Liu, Long Chen, Dong Wang, Yicheng Chen, Cunyin Peng, Chenyi Zhuang, Jinjie Gu, Leilei Gan, Xiangyu Zhao, Shi Gu
cs.AI
要旨
関数呼び出し(FC)は、大規模言語モデル(LLM)や自律エージェントが外部ツールと連携することを可能にし、複雑な現実世界の問題を解決する上で極めて重要な機能である。この能力が高度なAIシステムの中核として重要性を増すにつれ、それを開発・改良するための高品質なマルチターン(対話型)トレーニングデータの必要性はいくら強調してもし過ぎることはない。既存のデータ合成手法、例えばランダムな環境サンプリングやマルチエージェントによるロールプレイングなどは、現実世界の環境において高品質なデータを生成するには十分な性能を有していない。実用的な課題は主に3点ある:対象を絞ったモデル訓練、ツールアーキテクチャの分離、そしてマルチターン間の論理的依存関係である。これらの構造的欠陥に対処するため、我々は現実世界のマルチターンツール利用のための新しいデータ合成フレームワーク、FunReason-MTを提案する。FunReason-MTは、1) 多様な高品質な軌跡を収集するための環境-APIグラフ相互作用、2) 困難なクエリ構築を簡素化する高度なツール-クエリ合成、3) 洗練された連鎖思考(CoT)生成のためのガイド付き反復連鎖、を採用することで、マルチターンFCデータの複雑性の壁を解決する。Berkeley Function-Calling Leaderboard(BFCLv3)による評価は、本フレームワークの有効性を示している:FunReason-MTで生成されたデータを用いて構築された40億パラメータモデルは、同規模のモデルの中で最高性能を達成し、ほとんどのクローズドソースモデルを凌駕した。BFCLv4におけるさらなる性能向上は、FunReason-MTがエージェント学習のための信頼性が高く頑健なデータソースを提供することを裏付けている。
English
Function calling (FC) empowers large language models (LLMs) and autonomous
agents to interface with external tools, a critical capability for solving
complex, real-world problems. As this ability becomes increasingly central to
advanced AI systems, the need for high-quality, multi-turn training data to
develop and refine it cannot be overstated. Existing data synthesis methods,
such as random environment sampling or multi-agent role-playing, are not
powerful enough to generate high-quality data in real-world environments.
Practical challenges come in three folds: targeted model training, isolation of
tool architecture, and multi-turn logical dependency. To address these
structural deficiencies, we present FunReason-MT, a novel data synthesis
framework for real-world multi-turn tool use. FunReason-MT resolves the
complexity barrier in multi-turn FC data by employing 1) Environment-API Graph
Interactions to gather varied high-quality trajectories, 2) Advanced Tool-Query
Synthesis to simplify hard query construction, and 3) Guided Iterative Chain
for sophisticated CoT generation. Evaluations on Berkeley Function-Calling
Leaderboard (BFCLv3) demonstrate the power of our framework: a 4B model built
upon FunReason-MT generated data achieves state-of-the-art performance among
comparable-sized models, outperforming most close-source models. Further
performance improvements on BFCLv4 confirm that FunReason-MT provides a
reliable and robust source for agentic learning.