ChatPaper.aiChatPaper

암묵적 경험의 활용: 텍스트에서 도구 사용 궤적 합성하기

Unlocking Implicit Experience: Synthesizing Tool-Use Trajectories from Text

January 15, 2026
저자: Zhihao Xu, Rumei Li, Jiahuan Li, Rongxiang Weng, Jingang Wang, Xunliang Cai, Xiting Wang
cs.AI

초록

대규모 언어 모델(LLM)이 다중 턴 상호작용에서 도구를 효과적으로 활용할 수 있도록 하는 것은 능력 있는 자율 에이전트 구축에 필수적입니다. 그러나 다양하고 현실적인 다중 턴 도구 사용 데이터를 획득하는 것은 여전히 큰 과제로 남아 있습니다. 본 연구에서는 새로운 텍스트 기반 패러다임을 제안합니다. 우리는 텍스트 코퍼스가 자연스럽게 풍부한 다단계 문제 해결 경험을 포함하고 있으며, 이는 다중 턴 도구 사용 작업을 위한 미개척된, 확장 가능하며 정확한 데이터 소스로 활용될 수 있음을 관찰했습니다. 이러한 통찰을 바탕으로, 관련성 필터링, 워크플로우 및 도구 추출, 궤적 근거화, 복잡도 정제의 4단계 과정을 통해 텍스트 코퍼스에서 다중 턴 도구 사용 궤적을 생성 및 추출할 수 있는 데이터 합성 파이프라인인 GEM을 소개합니다. 계산 비용을 줄이기 위해 지도 미세 조정을 통해 특화된 궤적 합성기를 추가로 학습시킵니다. 이 모델은 복잡한 생성 파이프라인을 효율적인 종단간 궤적 생성기로 응축합니다. 실험 결과, 우리의 GEM-32B 모델이 BFCL V3 다중 턴 벤치마크에서 16.5%의 성능 향상을 달성했음을 보여줍니다. 우리의 모델은 τ-bench(Airline 및 Retail) 도메인 내 데이터로 학습된 모델들의 성능을 부분적으로 능가하며, 텍스트 기반 합성 패러다임에서 비롯된 우수한 일반화 능력을 강조합니다. 특히, 우리의 궤적 합성기는 전체 파이프라인의 품질을 유지하면서 추론 지연 시간과 비용을 크게 절감합니다.
English
Enabling Large Language Models (LLMs) to effectively utilize tools in multi-turn interactions is essential for building capable autonomous agents. However, acquiring diverse and realistic multi-turn tool-use data remains a significant challenge. In this work, we propose a novel text-based paradigm. We observe that textual corpora naturally contain rich, multi-step problem-solving experiences, which can serve as an untapped, scalable, and authentic data source for multi-turn tool-use tasks. Based on this insight, we introduce GEM, a data synthesis pipeline that enables the generation and extraction of multi-turn tool-use trajectories from text corpora through a four-stage process: relevance filtering, workflow & tool extraction, trajectory grounding, and complexity refinement. To reduce the computational cost, we further train a specialized Trajectory Synthesizer via supervised fine-tuning. This model distills the complex generation pipeline into an efficient, end-to-end trajectory generator. Experiments demonstrate that our GEM-32B achieve a 16.5% improvement on the BFCL V3 Multi-turn benchmark. Our models partially surpass the performance of models trained on τ - bench (Airline and Retail) in-domain data, highlighting the superior generalization capability derived from our text-based synthesis paradigm. Notably, our Trajectory Synthesizer matches the quality of the full pipeline while significantly reducing inference latency and costs.
PDF302January 20, 2026