Раскрытие неявного опыта: синтез траекторий использования инструментов из текста
Unlocking Implicit Experience: Synthesizing Tool-Use Trajectories from Text
January 15, 2026
Авторы: Zhihao Xu, Rumei Li, Jiahuan Li, Rongxiang Weng, Jingang Wang, Xunliang Cai, Xiting Wang
cs.AI
Аннотация
Обеспечение способности больших языковых моделей (LLM) эффективно использовать инструменты в многошаговых взаимодействиях крайне важно для создания компетентных автономных агентов. Однако получение разнообразных и реалистичных данных по использованию инструментов в многошаговом режиме остается серьезной проблемой. В данной работе мы предлагаем новую тексто-ориентированную парадигму. Мы наблюдаем, что текстовые корпуса естественным образом содержат богатый опыт многоэтапного решения задач, который может служить неиспользуемым, масштабируемым и аутентичным источником данных для многошаговых задач с применением инструментов. Основываясь на этом наблюдении, мы представляем GEM — конвейер синтеза данных, который позволяет генерировать и извлекать траектории многошагового использования инструментов из текстовых корпусов посредством четырехэтапного процесса: фильтрация по релевантности, извлечение рабочего процесса и инструментов, обоснование траектории и уточнение сложности. Для снижения вычислительных затрат мы дополнительно обучаем специализированный Синтезатор траекторий с помощью контролируемого тонкого настройки. Эта модель преобразует сложный конвейер генерации в эффективный сквозной генератор траекторий. Эксперименты показывают, что наша модель GEM-32B демонстрирует улучшение на 16,5% в многозадачном бенчмарке BFCL V3. Наши модели частично превосходят по производительности модели, обученные на внутридоменных данных τ-bench (Airline и Retail), что подчеркивает превосходную обобщающую способность, полученную благодаря нашей тексто-ориентированной парадигме синтеза. Примечательно, что наш Синтезатор траекторий соответствует качеству полного конвейера, при этом значительно снижая задержку вывода и затраты.
English
Enabling Large Language Models (LLMs) to effectively utilize tools in multi-turn interactions is essential for building capable autonomous agents. However, acquiring diverse and realistic multi-turn tool-use data remains a significant challenge. In this work, we propose a novel text-based paradigm. We observe that textual corpora naturally contain rich, multi-step problem-solving experiences, which can serve as an untapped, scalable, and authentic data source for multi-turn tool-use tasks. Based on this insight, we introduce GEM, a data synthesis pipeline that enables the generation and extraction of multi-turn tool-use trajectories from text corpora through a four-stage process: relevance filtering, workflow & tool extraction, trajectory grounding, and complexity refinement. To reduce the computational cost, we further train a specialized Trajectory Synthesizer via supervised fine-tuning. This model distills the complex generation pipeline into an efficient, end-to-end trajectory generator. Experiments demonstrate that our GEM-32B achieve a 16.5% improvement on the BFCL V3 Multi-turn benchmark. Our models partially surpass the performance of models trained on τ - bench (Airline and Retail) in-domain data, highlighting the superior generalization capability derived from our text-based synthesis paradigm. Notably, our Trajectory Synthesizer matches the quality of the full pipeline while significantly reducing inference latency and costs.