VoxMind: Um Sistema de Diálogo Falado Agente de Ponta a Ponta

Resumo

Os recentes modelos de diálogo falado de ponta a ponta permitem uma interação natural. No entanto, à medida que as demandas dos usuários se tornam cada vez mais complexas, os modelos que dependem apenas de habilidades conversacionais geralmente têm dificuldades para acompanhar. Incorporar capacidades agentes é, portanto, essencial: ao permitir o uso de ferramentas, esses modelos podem estender seus limites de conhecimento e resolver melhor tarefas do mundo real. No entanto, a pesquisa existente concentrou-se amplamente na percepção e geração centrais, com uma exploração comparativamente limitada de tais extensões aumentadas por ferramentas. Para preencher essa lacuna, apresentamos o VoxMind, uma estrutura integrada projetada para equipar modelos de diálogo falado de ponta a ponta com capacidades agentes abrangentes. Aproveitando nosso conjunto de dados AgentChat curado de 470 horas, incorporamos um mecanismo "Pensar-Antes-de-Falar", permitindo que o modelo internalize o raciocínio estruturado como um pré-requisito crítico para o planejamento e a geração de respostas. Além disso, para mitigar os gargalos de latência causados pela integração de ferramentas em larga escala, propomos uma arquitetura de Gerenciamento Dinâmico de Ferramentas com Múltiplos Agentes. Ao delegar assincronamente tarefas de recuperação a um agente auxiliar alinhado com a trajetória de raciocínio do modelo principal, este sistema efetivamente desacopla a latência de inferência do tamanho do conjunto de ferramentas. Resultados experimentais confirmam que o VoxMind alcança melhorias significativas no desempenho do agente: em comparação com bases fortes, a taxa de conclusão de tarefas aumenta de 34,88% para 74,57%, superando o Gemini-2.5-Pro em tarefas de agente falado, preservando a qualidade conversacional geral. O código-fonte e os dados associados estão publicamente disponíveis em https://github.com/MM-Speech/VoxMind.

English

Recent end-to-end spoken dialogue models enable natural interaction. However, as user demands become increasingly complex, models that rely solely on conversational abilities often struggle to cope. Incorporating agentic capabilities is therefore essential: by enabling tool use, these models can extend their knowledge boundaries and better solve real-world tasks. Yet, existing research has largely concentrated on core perception and generation, with comparatively limited exploration of such tool-augmented extensions. To bridge this gap, we present VoxMind, an integrated framework designed to equip end-to-end spoken dialogue models with comprehensive agentic abilities. Leveraging our curated 470-hour AgentChat dataset, we incorporate a "Think-before-Speak" mechanism, enabling the model to internalize structured reasoning as a critical prerequisite for planning and response generation. Furthermore, to mitigate latency bottlenecks caused by large-scale tool integration, we propose a Multi-Agent Dynamic Tool Management architecture. By asynchronously delegating retrieval tasks to an auxiliary agent aligned with the main model's reasoning trajectory, this system effectively decouples inference latency from toolset size. Experimental results confirm that VoxMind achieves significant improvements in agent performance: compared with strong baselines, the task completion rate increases from 34.88% to 74.57%, outperforming Gemini-2.5-Pro on spoken agent tasks while preserving general conversational quality. The source code and associated data are publicly available at https://github.com/MM-Speech/VoxMind.

VoxMind: Um Sistema de Diálogo Falado Agente de Ponta a Ponta

VoxMind: An End-to-End Agentic Spoken Dialogue System

Resumo

Support