VoxMind: Un Sistema de Diálogo Hablado Agéntico de Extremo a Extremo

Resumen

Los modelos recientes de diálogo hablado de extremo a extremo permiten una interacción natural. Sin embargo, a medida que las demandas de los usuarios se vuelven cada vez más complejas, los modelos que dependen únicamente de habilidades conversacionales a menudo tienen dificultades para adaptarse. Por lo tanto, la incorporación de capacidades agentivas es esencial: al permitir el uso de herramientas, estos modelos pueden extender sus límites de conocimiento y resolver mejor las tareas del mundo real. No obstante, la investigación existente se ha centrado en gran medida en la percepción y generación central, con una exploración comparativamente limitada de tales extensiones aumentadas con herramientas. Para cerrar esta brecha, presentamos VoxMind, un marco integrado diseñado para dotar a los modelos de diálogo hablado de extremo a extremo con capacidades agentivas integrales. Aprovechando nuestro conjunto de datos AgentChat de 470 horas cuidadosamente seleccionado, incorporamos un mecanismo de "Pensar-Antes-de-Hablar", que permite al modelo internalizar el razonamiento estructurado como un prerrequisito crítico para la planificación y generación de respuestas. Además, para mitigar los cuellos de botella de latencia causados por la integración de herramientas a gran escala, proponemos una arquitectura de Gestión Dinámica de Herramientas Multi-Agente. Al delegar asincrónicamente las tareas de recuperación a un agente auxiliar alineado con la trayectoria de razonamiento del modelo principal, este sistema desacopla efectivamente la latencia de inferencia del tamaño del conjunto de herramientas. Los resultados experimentales confirman que VoxMind logra mejoras significativas en el rendimiento del agente: en comparación con líneas base sólidas, la tasa de finalización de tareas aumenta del 34,88% al 74,57%, superando a Gemini-2.5-Pro en tareas de agente hablado mientras preserva la calidad conversacional general. El código fuente y los datos asociados están disponibles públicamente en https://github.com/MM-Speech/VoxMind.

English

Recent end-to-end spoken dialogue models enable natural interaction. However, as user demands become increasingly complex, models that rely solely on conversational abilities often struggle to cope. Incorporating agentic capabilities is therefore essential: by enabling tool use, these models can extend their knowledge boundaries and better solve real-world tasks. Yet, existing research has largely concentrated on core perception and generation, with comparatively limited exploration of such tool-augmented extensions. To bridge this gap, we present VoxMind, an integrated framework designed to equip end-to-end spoken dialogue models with comprehensive agentic abilities. Leveraging our curated 470-hour AgentChat dataset, we incorporate a "Think-before-Speak" mechanism, enabling the model to internalize structured reasoning as a critical prerequisite for planning and response generation. Furthermore, to mitigate latency bottlenecks caused by large-scale tool integration, we propose a Multi-Agent Dynamic Tool Management architecture. By asynchronously delegating retrieval tasks to an auxiliary agent aligned with the main model's reasoning trajectory, this system effectively decouples inference latency from toolset size. Experimental results confirm that VoxMind achieves significant improvements in agent performance: compared with strong baselines, the task completion rate increases from 34.88% to 74.57%, outperforming Gemini-2.5-Pro on spoken agent tasks while preserving general conversational quality. The source code and associated data are publicly available at https://github.com/MM-Speech/VoxMind.

VoxMind: Un Sistema de Diálogo Hablado Agéntico de Extremo a Extremo

VoxMind: An End-to-End Agentic Spoken Dialogue System

Resumen

Support