Geração de Diálogo Multi-turn Orientada ao Usuário com Uso de Ferramentas em Escala

Resumo

A recente mudança de paradigma em direção a grandes modelos de raciocínio (LRMs) como agentes autónomos intensificou a demanda por capacidades sofisticadas e multi-turno de uso de ferramentas. No entanto, os conjuntos de dados e abordagens de geração de dados existentes são limitados por conjuntos de ferramentas estáticos e predefinidos, que não conseguem escalar para a complexidade da colaboração aberta entre humanos e agentes. Para resolver isso, desenvolvemos inicialmente uma estrutura para geração automatizada de diálogos multi-turno orientados por tarefas em escala, utilizando um simulador baseado em LRM para gerar dinamicamente ferramentas de alto valor e específicas de domínio para resolver tarefas especificadas. No entanto, observamos que um design puramente orientado a tarefas frequentemente resulta em trajetórias de "apenas resolução de tarefas", onde o agente conclui o objetivo com interação mínima, falhando em gerar as conversas com alto número de turnos vistas em cenários realistas. Para preencher esta lacuna, mudamos para um paradigma de simulação orientado ao utilizador. Ao desacoplar a geração de tarefas de um simulador de utilizador dedicado que imita regras comportamentais humanas – como a realização incremental de pedidos e o feedback turno a turno – facilitamos diálogos multi-turno mais autênticos e prolongados, que refletem a natureza iterativa da resolução de problemas do mundo real. Nossa pipeline de geração opera como um módulo versátil e plug-and-play, capaz de iniciar a geração a partir de qualquer estado, garantindo alta escalabilidade na produção de dados estendidos de uso de ferramentas. Além disso, ao facilitar múltiplas conclusões de tarefas dentro de uma única trajetória, produz um conjunto de dados de alta densidade que reflete as demandas multifacetadas da interação real entre humanos e agentes.

English

The recent paradigm shift toward large reasoning models (LRMs) as autonomous agents has intensified the demand for sophisticated, multi-turn tool-use capabilities. Yet, existing datasets and data-generation approaches are limited by static, predefined toolsets that cannot scale to the complexity of open-ended human-agent collaboration. To address this, we initially developed a framework for automated task-oriented multi-turn dialogue generation at scale, utilizing an LRM-based simulator to dynamically generate high-value, domain-specific tools to solve specified tasks. However, we observe that a purely task-oriented design often results in "solely task-solving" trajectories, where the agent completes the objective with minimal interaction, failing to generate the high turn-count conversations seen in realistic scenarios. To bridge this gap, we shift toward a user-oriented simulation paradigm. By decoupling task generation from a dedicated user simulator that mimics human behavioral rules - such as incremental request-making and turn-by-turn feedback - we facilitate more authentic, extended multi-turn dialogues that reflect the iterative nature of real-world problem solving. Our generation pipeline operates as a versatile, plug-and-play module capable of initiating generation from any state, ensuring high scalability in producing extended tool-use data. Furthermore, by facilitating multiple task completions within a single trajectory, it yields a high-density dataset that reflects the multifaceted demands of real-world human-agent interaction.