暗黙知の解放:テキストからの道具使用軌道の合成
Unlocking Implicit Experience: Synthesizing Tool-Use Trajectories from Text
January 15, 2026
著者: Zhihao Xu, Rumei Li, Jiahuan Li, Rongxiang Weng, Jingang Wang, Xunliang Cai, Xiting Wang
cs.AI
要旨
大規模言語モデル(LLM)がマルチターン対話において効果的にツールを利用できるようにすることは、高度な自律エージェントの構築において不可欠です。しかし、多様で現実的なマルチターンツール利用データの獲得は依然として大きな課題です。本研究では、新しいテキストベースのパラダイムを提案します。私たちは、テキストコーパスが自然に豊富なマルチステップの問題解決経験を含んでおり、これがマルチターンツール利用タスクのための未開拓でスケーラブル、かつ真正なデータソースとして機能し得ることを見出しました。この知見に基づき、私たちはGEMを導入します。これは、関連性フィルタリング、ワークフロー&ツール抽出、軌跡の接地、複雑性洗練の4段階プロセスを通じて、テキストコーパスからマルチターンツール利用軌跡を生成・抽出するデータ合成パイプラインです。計算コストを削減するため、教師ありファインチューニングによる専用の軌跡合成器をさらに訓練します。このモデルは、複雑な生成パイプラインを効率的なエンドツーエンドの軌跡生成器に集約します。実験により、私たちのGEM-32BがBFCL V3マルチターンベンチマークで16.5%の改善を達成することが実証されました。私たちのモデルは、τ-bench(航空および小売)のインダメインデータで訓練されたモデルの性能を一部で凌駕し、テキストベース合成パラダイムから得られる優れた一般化能力が示されました。特筆すべきは、私たちの軌跡合成器が、推論レイテンシとコストを大幅に削減しつつ、完全なパイプラインと同等の品質を達成した点です。
English
Enabling Large Language Models (LLMs) to effectively utilize tools in multi-turn interactions is essential for building capable autonomous agents. However, acquiring diverse and realistic multi-turn tool-use data remains a significant challenge. In this work, we propose a novel text-based paradigm. We observe that textual corpora naturally contain rich, multi-step problem-solving experiences, which can serve as an untapped, scalable, and authentic data source for multi-turn tool-use tasks. Based on this insight, we introduce GEM, a data synthesis pipeline that enables the generation and extraction of multi-turn tool-use trajectories from text corpora through a four-stage process: relevance filtering, workflow & tool extraction, trajectory grounding, and complexity refinement. To reduce the computational cost, we further train a specialized Trajectory Synthesizer via supervised fine-tuning. This model distills the complex generation pipeline into an efficient, end-to-end trajectory generator. Experiments demonstrate that our GEM-32B achieve a 16.5% improvement on the BFCL V3 Multi-turn benchmark. Our models partially surpass the performance of models trained on τ - bench (Airline and Retail) in-domain data, highlighting the superior generalization capability derived from our text-based synthesis paradigm. Notably, our Trajectory Synthesizer matches the quality of the full pipeline while significantly reducing inference latency and costs.