VoxMind : Un système de dialogue oral agentiel de bout en bout

Résumé

Les modèles récents de dialogue oral de bout en bout permettent une interaction naturelle. Cependant, face à la complexité croissante des demandes utilisateurs, les modèles reposant uniquement sur des capacités conversationnelles peinent souvent à suivre. L'intégration de capacités agentiques devient donc essentielle : en permettant l'utilisation d'outils, ces modèles peuvent repousser leurs limites knowledge et mieux résoudre des tâches du monde réel. Pourtant, la recherche existante s'est largement concentrée sur la perception et la génération de base, avec une exploration relativement limitée de telles extensions par outils. Pour combler cette lacune, nous présentons VoxMind, un framework intégré conçu pour doter les modèles de dialogue oral de bout en bout de capacités agentiques complètes. En tirant parti de notre jeu de données AgentChat de 470 heures soigneusement constitué, nous intégrons un mécanisme « Penser avant de Parler », permettant au modèle d'intérioriser un raisonnement structuré comme prérequis critique pour la planification et la génération de réponses. De plus, pour atténuer les goulots d'étranglement de latence causés par l'intégration d'outils à grande échelle, nous proposons une architecture de Gestion Dynamique d'Outils par Agents Multiples. En déléguant de manière asynchrone les tâches de récupération à un agent auxiliaire aligné sur la trajectoire raisonnée du modèle principal, ce système découple efficacement la latence d'inférence de la taille de la boîte à outils. Les résultats expérimentaux confirment que VoxMind réalise des améliorations significatives des performances agentiques : par rapport à des bases de référence solides, le taux de réalisation des tâches passe de 34,88 % à 74,57 %, surpassant Gemini-2.5-Pro sur les tâches agentiques orales tout en préservant la qualité conversationnelle générale. Le code source et les données associées sont publiquement disponibles à l'adresse https://github.com/MM-Speech/VoxMind.

English

Recent end-to-end spoken dialogue models enable natural interaction. However, as user demands become increasingly complex, models that rely solely on conversational abilities often struggle to cope. Incorporating agentic capabilities is therefore essential: by enabling tool use, these models can extend their knowledge boundaries and better solve real-world tasks. Yet, existing research has largely concentrated on core perception and generation, with comparatively limited exploration of such tool-augmented extensions. To bridge this gap, we present VoxMind, an integrated framework designed to equip end-to-end spoken dialogue models with comprehensive agentic abilities. Leveraging our curated 470-hour AgentChat dataset, we incorporate a "Think-before-Speak" mechanism, enabling the model to internalize structured reasoning as a critical prerequisite for planning and response generation. Furthermore, to mitigate latency bottlenecks caused by large-scale tool integration, we propose a Multi-Agent Dynamic Tool Management architecture. By asynchronously delegating retrieval tasks to an auxiliary agent aligned with the main model's reasoning trajectory, this system effectively decouples inference latency from toolset size. Experimental results confirm that VoxMind achieves significant improvements in agent performance: compared with strong baselines, the task completion rate increases from 34.88% to 74.57%, outperforming Gemini-2.5-Pro on spoken agent tasks while preserving general conversational quality. The source code and associated data are publicly available at https://github.com/MM-Speech/VoxMind.

VoxMind : Un système de dialogue oral agentiel de bout en bout

VoxMind: An End-to-End Agentic Spoken Dialogue System

Résumé

Support