Informe Técnico de FunReason-MT: Superando la Barrera de Complejidad en la Llamada a Funciones Multi-Turn
FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling
October 28, 2025
Autores: Zengzhuang Xu, Bingguang Hao, Zechuan Wang, Yuntao Wen, Maolin Wang, Yang Liu, Long Chen, Dong Wang, Yicheng Chen, Cunyin Peng, Chenyi Zhuang, Jinjie Gu, Leilei Gan, Xiangyu Zhao, Shi Gu
cs.AI
Resumen
La capacidad de llamada de funciones (LCF) permite a los grandes modelos de lenguaje (GML) y agentes autónomos interactuar con herramientas externas, una capacidad crítica para resolver problemas complejos del mundo real. A medida que esta habilidad se vuelve cada vez más central en los sistemas de IA avanzados, la necesidad de datos de entrenamiento de alta calidad y múltiples turnos para desarrollarla y refinarla no puede ser exagerada. Los métodos existentes de síntesis de datos, como el muestreo aleatorio de entornos o los juegos de roles multiagente, no son lo suficientemente potentes para generar datos de alta calidad en entornos reales. Los desafíos prácticos se presentan en tres aspectos: entrenamiento dirigido del modelo, aislamiento de la arquitectura de herramientas y dependencia lógica multi-turno. Para abordar estas deficiencias estructurales, presentamos FunReason-MT, un novedoso marco de síntesis de datos para el uso de herramientas multi-turno en entornos reales. FunReason-MT resuelve la barrera de complejidad en los datos de LCF multi-turno mediante: 1) Interacciones con Grafos de API-Entorno para recopilar trayectorias variadas y de alta calidad, 2) Síntesis Avanzada de Consultas-Herramientas para simplificar la construcción de consultas complejas, y 3) Cadenas Iterativas Guiadas para la generación sofisticada de Cadenas de Pensamiento (CdP). Las evaluaciones en el Berkeley Function-Calling Leaderboard (BFCLv3) demuestran el poder de nuestro marco: un modelo de 4B entrenado con datos generados por FunReason-MT logra un rendimiento de vanguardia entre modelos de tamaño comparable, superando a la mayoría de los modelos cerrados. Las mejoras adicionales de rendimiento en BFCLv4 confirman que FunReason-MT proporciona una fuente confiable y robusta para el aprendizaje agentivo.
English
Function calling (FC) empowers large language models (LLMs) and autonomous
agents to interface with external tools, a critical capability for solving
complex, real-world problems. As this ability becomes increasingly central to
advanced AI systems, the need for high-quality, multi-turn training data to
develop and refine it cannot be overstated. Existing data synthesis methods,
such as random environment sampling or multi-agent role-playing, are not
powerful enough to generate high-quality data in real-world environments.
Practical challenges come in three folds: targeted model training, isolation of
tool architecture, and multi-turn logical dependency. To address these
structural deficiencies, we present FunReason-MT, a novel data synthesis
framework for real-world multi-turn tool use. FunReason-MT resolves the
complexity barrier in multi-turn FC data by employing 1) Environment-API Graph
Interactions to gather varied high-quality trajectories, 2) Advanced Tool-Query
Synthesis to simplify hard query construction, and 3) Guided Iterative Chain
for sophisticated CoT generation. Evaluations on Berkeley Function-Calling
Leaderboard (BFCLv3) demonstrate the power of our framework: a 4B model built
upon FunReason-MT generated data achieves state-of-the-art performance among
comparable-sized models, outperforming most close-source models. Further
performance improvements on BFCLv4 confirm that FunReason-MT provides a
reliable and robust source for agentic learning.