Benutzerorientierte mehrschrittige Dialoggenerierung mit Werkzeugnutzung im großen Maßstab
User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale
January 13, 2026
papers.authors: Jungho Cho, Minbyul Jeong, Sungrae Park
cs.AI
papers.abstract
Der jüngste Paradigmenwechsel hin zu großen Reasoning-Modellen (LRMs) als autonome Agenten hat die Nachfrage nach anspruchsvollen, mehrstufigen Werkzeugnutzungsfähigkeiten verstärkt. Bisher sind bestehende Datensätze und Datengenerierungsansätze jedoch durch statische, vordefinierte Werkzeugsets eingeschränkt, die sich nicht auf die Komplexität einer ergebnisoffenen Mensch-Agenten-Kollaboration skalieren lassen. Um dies zu beheben, entwickelten wir zunächst einen Rahmen für die automatisierte, aufgabenorientierte Generierung mehrstufiger Dialoge im großen Maßstab, der einen LRM-basierten Simulator nutzt, um dynamisch hochwertige, domänenspezifische Werkzeuge zur Lösung bestimmter Aufgaben zu generieren. Wir beobachten jedoch, dass ein rein aufgabenorientiertes Design oft zu "rein aufgabenlösenden" Verläufen führt, bei denen der Agent das Ziel mit minimaler Interaktion erreicht und somit nicht die umfangreichen, mehrstufigen Konversationen realer Szenarien erzeugt. Um diese Lücke zu schließen, wenden wir uns einem benutzerorientierten Simulationsparadigma zu. Indem wir die Aufgabengenerierung von einem dedizierten Benutzersimulator entkoppeln, der menschliche Verhaltensregeln nachahmt – wie schrittweise Anfragestellung und turnusmäßiges Feedback – ermöglichen wir authentischere, erweiterte Mehrfachdialoge, die die iterative Natur realer Problemlösungsprozesse widerspiegeln. Unsere Generierungspipeline fungiert als vielseitiges Plug-and-Play-Modul, das die Generierung von jedem Zustand aus starten kann und so eine hohe Skalierbarkeit bei der Erzeugung umfangreicher Werkzeugnutzungsdaten gewährleistet. Darüber hinaus ermöglicht die Bewältigung mehrerer Aufgaben innerhalb eines einzigen Verlaufs die Erzeugung eines hochverdichteten Datensatzes, der die vielschichtigen Anforderungen realer Mensch-Agenten-Interaktionen widerspiegelt.
English
The recent paradigm shift toward large reasoning models (LRMs) as autonomous agents has intensified the demand for sophisticated, multi-turn tool-use capabilities. Yet, existing datasets and data-generation approaches are limited by static, predefined toolsets that cannot scale to the complexity of open-ended human-agent collaboration. To address this, we initially developed a framework for automated task-oriented multi-turn dialogue generation at scale, utilizing an LRM-based simulator to dynamically generate high-value, domain-specific tools to solve specified tasks. However, we observe that a purely task-oriented design often results in "solely task-solving" trajectories, where the agent completes the objective with minimal interaction, failing to generate the high turn-count conversations seen in realistic scenarios. To bridge this gap, we shift toward a user-oriented simulation paradigm. By decoupling task generation from a dedicated user simulator that mimics human behavioral rules - such as incremental request-making and turn-by-turn feedback - we facilitate more authentic, extended multi-turn dialogues that reflect the iterative nature of real-world problem solving. Our generation pipeline operates as a versatile, plug-and-play module capable of initiating generation from any state, ensuring high scalability in producing extended tool-use data. Furthermore, by facilitating multiple task completions within a single trajectory, it yields a high-density dataset that reflects the multifaceted demands of real-world human-agent interaction.