Déverrouiller l'expérience implicite : Synthèse de trajectoires d'utilisation d'outils à partir de texte
Unlocking Implicit Experience: Synthesizing Tool-Use Trajectories from Text
January 15, 2026
papers.authors: Zhihao Xu, Rumei Li, Jiahuan Li, Rongxiang Weng, Jingang Wang, Xunliang Cai, Xiting Wang
cs.AI
papers.abstract
Permettre aux grands modèles de langage (LLM) d'utiliser efficacement des outils dans des interactions multi-tours est essentiel pour créer des agents autonomes performants. Cependant, l'acquisition de données réalistes et diversifiées d'utilisation d'outils en multi-tours reste un défi majeur. Dans ce travail, nous proposons un nouveau paradigme basé sur le texte. Nous observons que les corpus textuels contiennent naturellement de riches expériences de résolution de problèmes multi-étapes, qui peuvent constituer une source de données inexploitée, évolutive et authentique pour les tâches d'utilisation d'outils en multi-tours. Sur la base de cette idée, nous présentons GEM, un pipeline de synthèse de données qui permet la génération et l'extraction de trajectoires d'utilisation d'outils multi-tours à partir de corpus textuels via un processus en quatre étapes : filtrage par pertinence, extraction des workflows et outils, ancrage des trajectoires et raffinement de la complexité. Pour réduire le coût computationnel, nous affinons ensuite par apprentissage supervisé un Synthéticiseur de Trajectoires spécialisé. Ce modèle condense le pipeline de génération complexe en un générateur de trajectoires efficace de bout en bout. Les expériences démontrent que notre GEM-32B obtient une amélioration de 16,5 % sur le benchmark BFCL V3 Multi-tours. Nos modèles surpassent partiellement les performances de modèles entraînés sur des données de domaine spécifique de τ-bench (Transport aérien et Vente au détail), mettant en évidence la capacité de généralisation supérieure découlant de notre paradigme de synthèse basé sur le texte. Notamment, notre Synthéticiseur de Trajectoires atteint la qualité du pipeline complet tout en réduisant significativement la latence et les coûts d'inférence.
English
Enabling Large Language Models (LLMs) to effectively utilize tools in multi-turn interactions is essential for building capable autonomous agents. However, acquiring diverse and realistic multi-turn tool-use data remains a significant challenge. In this work, we propose a novel text-based paradigm. We observe that textual corpora naturally contain rich, multi-step problem-solving experiences, which can serve as an untapped, scalable, and authentic data source for multi-turn tool-use tasks. Based on this insight, we introduce GEM, a data synthesis pipeline that enables the generation and extraction of multi-turn tool-use trajectories from text corpora through a four-stage process: relevance filtering, workflow & tool extraction, trajectory grounding, and complexity refinement. To reduce the computational cost, we further train a specialized Trajectory Synthesizer via supervised fine-tuning. This model distills the complex generation pipeline into an efficient, end-to-end trajectory generator. Experiments demonstrate that our GEM-32B achieve a 16.5% improvement on the BFCL V3 Multi-turn benchmark. Our models partially surpass the performance of models trained on τ - bench (Airline and Retail) in-domain data, highlighting the superior generalization capability derived from our text-based synthesis paradigm. Notably, our Trajectory Synthesizer matches the quality of the full pipeline while significantly reducing inference latency and costs.