Gebruikersgerichte meerdere-dialooggeneratie met grootschalig gereedschapsgebruik
User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale
January 13, 2026
Auteurs: Jungho Cho, Minbyul Jeong, Sungrae Park
cs.AI
Samenvatting
De recente paradigmaverschuiving naar grote redeneermodellen (LRM's) als autonome agenten heeft de vraag naar geavanceerde, multi-turn tool-use capaciteiten geïntensiveerd. Bestaande datasets en data-generatiebenaderingen worden echter beperkt door statische, vooraf gedefinieerde toolsets die niet kunnen opschalen naar de complexiteit van open-ended mens-agent samenwerking. Om dit aan te pakken, ontwikkelden wij aanvankelijk een raamwerk voor geautomatiseerde taakgerichte multi-turn dialooggeneratie op grote schaal, waarbij een op LRM's gebaseerde simulator werd gebruikt om dynamisch hoogwaardige, domeinspecifieke tools te genereren om gespecificeerde taken op te lossen. Wij merken echter dat een puur taakgerichte ontwerpaanpak vaak resulteert in "uitsluitend taakoplossende" trajecten, waarbij de agent het doel bereikt met minimale interactie, wat niet leidt tot de conversaties met een hoog aantal beurten zoals gezien in realistische scenario's. Om deze kloof te overbruggen, verschuiven wij naar een gebruikersgericht simulatieparadigma. Door taakgeneratie te ontkoppelen van een toegewijde gebruikerssimulator die menselijk gedrag nabootst - zoals incrementeel verzoeken doen en beurt-voor-beurt feedback geven - faciliteren wij authentiekere, uitgebreidere multi-turn dialogen die de iteratieve aard van real-world probleemoplossing weerspiegelen. Onze generatiepijplijn functioneert als een veelzijdige, plug-and-play module die generatie vanuit elke staat kan starten, wat een hoge schaalbaarheid waarborgt bij het produceren van uitgebreide tool-use data. Bovendien levert het, door het mogelijk maken van meerdere taakvoltooiingen binnen een enkel traject, een dataset met hoge dichtheid op die de veelzijdige eisen van real-world mens-agent interactie weerspiegelt.
English
The recent paradigm shift toward large reasoning models (LRMs) as autonomous agents has intensified the demand for sophisticated, multi-turn tool-use capabilities. Yet, existing datasets and data-generation approaches are limited by static, predefined toolsets that cannot scale to the complexity of open-ended human-agent collaboration. To address this, we initially developed a framework for automated task-oriented multi-turn dialogue generation at scale, utilizing an LRM-based simulator to dynamically generate high-value, domain-specific tools to solve specified tasks. However, we observe that a purely task-oriented design often results in "solely task-solving" trajectories, where the agent completes the objective with minimal interaction, failing to generate the high turn-count conversations seen in realistic scenarios. To bridge this gap, we shift toward a user-oriented simulation paradigm. By decoupling task generation from a dedicated user simulator that mimics human behavioral rules - such as incremental request-making and turn-by-turn feedback - we facilitate more authentic, extended multi-turn dialogues that reflect the iterative nature of real-world problem solving. Our generation pipeline operates as a versatile, plug-and-play module capable of initiating generation from any state, ensuring high scalability in producing extended tool-use data. Furthermore, by facilitating multiple task completions within a single trajectory, it yields a high-density dataset that reflects the multifaceted demands of real-world human-agent interaction.