Sbloccare l'Esperienza Implicita: Sintesi di Traiettorie d'Uso degli Strumenti a Partire dal Testo

Abstract

Consentire ai Large Language Model (LLM) di utilizzare efficacemente gli strumenti in interazioni multi-turno è fondamentale per costruire agenti autonomi capaci. Tuttavia, acquisire dati diversificati e realistici sull'uso di strumenti in contesti multi-turno rimane una sfida significativa. In questo lavoro, proponiamo un nuovo paradigma basato sul testo. Osserviamo che i corpora testuali contengono naturalmente esperienze ricche e multi-step di risoluzione di problemi, che possono fungere da fonte di dati inesplorata, scalabile e autentica per compiti di uso di strumenti multi-turno. Sulla base di questa intuizione, introduciamo GEM, una pipeline di sintesi dei dati che permette la generazione e l'estrazione di traiettorie di uso di strumenti multi-turno da corpora testuali attraverso un processo in quattro fasi: filtraggio per rilevanza, estrazione del flusso di lavoro e degli strumenti, grounding della traiettoria e raffinamento della complessità. Per ridurre il costo computazionale, addestriamo ulteriormente un Trajectory Synthesizer specializzato tramite supervised fine-tuning. Questo modello condensa la complessa pipeline di generazione in un generatore di traiettorie efficiente ed end-to-end. Gli esperimenti dimostrano che il nostro GEM-32B raggiunge un miglioramento del 16.5% sul benchmark BFCL V3 Multi-turn. I nostri modelli superano parzialmente le prestazioni di modelli addestrati su dati in-domain di τ-bench (Airline e Retail), evidenziando la superiore capacità di generalizzazione derivata dal nostro paradigma di sintesi basato sul testo. È degno di nota che il nostro Trajectory Synthesizer eguaglia la qualità della pipeline completa riducendo significativamente la latenza di inferenza e i costi.

English

Enabling Large Language Models (LLMs) to effectively utilize tools in multi-turn interactions is essential for building capable autonomous agents. However, acquiring diverse and realistic multi-turn tool-use data remains a significant challenge. In this work, we propose a novel text-based paradigm. We observe that textual corpora naturally contain rich, multi-step problem-solving experiences, which can serve as an untapped, scalable, and authentic data source for multi-turn tool-use tasks. Based on this insight, we introduce GEM, a data synthesis pipeline that enables the generation and extraction of multi-turn tool-use trajectories from text corpora through a four-stage process: relevance filtering, workflow & tool extraction, trajectory grounding, and complexity refinement. To reduce the computational cost, we further train a specialized Trajectory Synthesizer via supervised fine-tuning. This model distills the complex generation pipeline into an efficient, end-to-end trajectory generator. Experiments demonstrate that our GEM-32B achieve a 16.5% improvement on the BFCL V3 Multi-turn benchmark. Our models partially surpass the performance of models trained on τ - bench (Airline and Retail) in-domain data, highlighting the superior generalization capability derived from our text-based synthesis paradigm. Notably, our Trajectory Synthesizer matches the quality of the full pipeline while significantly reducing inference latency and costs.

Sbloccare l'Esperienza Implicita: Sintesi di Traiettorie d'Uso degli Strumenti a Partire dal Testo

Unlocking Implicit Experience: Synthesizing Tool-Use Trajectories from Text

Abstract

Support