Generazione di Dialoghi Multi-Turn Orientata all'Utente con Utilizzo di Strumenti su Larga Scala
User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale
January 13, 2026
Autori: Jungho Cho, Minbyul Jeong, Sungrae Park
cs.AI
Abstract
Il recente cambio di paradigma verso i grandi modelli di ragionamento (LRM) come agenti autonomi ha intensificato la richiesta di capacità sofisticate di utilizzo di strumenti in dialoghi multi-turn. Tuttavia, i dataset e gli approcci di generazione dei dati esistenti sono limitati da set di strumenti statici e predefiniti che non possono scalare per adattarsi alla complessità della collaborazione aperta tra uomo e agente. Per affrontare questo problema, abbiamo inizialmente sviluppato un framework per la generazione automatizzata su larga scala di dialoghi multi-turn orientati al compito, utilizzando un simulatore basato su LRM per generare dinamicamente strumenti ad alto valore e specifici del dominio per risolvere compiti specifici. Tuttavia, osserviamo che una progettazione puramente orientata al compito spesso produce traiettorie di "pura risoluzione del compito", in cui l'agente completa l'obiettivo con un'interazione minima, non riuscendo a generare conversazioni con un numero elevato di turni come quelle osservate negli scenari realistici. Per colmare questa lacuna, ci orientiamo verso un paradigma di simulazione orientato all'utente. Disaccoppiando la generazione del compito da un simulatore utente dedicato che imita le regole comportamentali umane – come la formulazione incrementale di richieste e il feedback turno per turno – favoriamo dialoghi multi-turn più autentici e prolungati che riflettono la natura iterativa della risoluzione di problemi nel mondo reale. La nostra pipeline di generazione funziona come un modulo versatile plug-and-play in grado di avviare la generazione da qualsiasi stato, garantendo un'elevata scalabilità nella produzione di dati estesi sull'uso di strumenti. Inoltre, consentendo il completamento di più compiti all'interno di una singola traiettoria, produce un dataset ad alta densità che riflette le esigenze multifaccettate dell'interazione reale tra uomo e agente.
English
The recent paradigm shift toward large reasoning models (LRMs) as autonomous agents has intensified the demand for sophisticated, multi-turn tool-use capabilities. Yet, existing datasets and data-generation approaches are limited by static, predefined toolsets that cannot scale to the complexity of open-ended human-agent collaboration. To address this, we initially developed a framework for automated task-oriented multi-turn dialogue generation at scale, utilizing an LRM-based simulator to dynamically generate high-value, domain-specific tools to solve specified tasks. However, we observe that a purely task-oriented design often results in "solely task-solving" trajectories, where the agent completes the objective with minimal interaction, failing to generate the high turn-count conversations seen in realistic scenarios. To bridge this gap, we shift toward a user-oriented simulation paradigm. By decoupling task generation from a dedicated user simulator that mimics human behavioral rules - such as incremental request-making and turn-by-turn feedback - we facilitate more authentic, extended multi-turn dialogues that reflect the iterative nature of real-world problem solving. Our generation pipeline operates as a versatile, plug-and-play module capable of initiating generation from any state, ensuring high scalability in producing extended tool-use data. Furthermore, by facilitating multiple task completions within a single trajectory, it yields a high-density dataset that reflects the multifaceted demands of real-world human-agent interaction.