VoxMind: Un Sistema di Dialogo Parlato Agente End-to-End

Abstract

I recenti modelli di dialogo parlato end-to-end consentono un'interazione naturale. Tuttavia, con l'aumentare della complessità delle richieste degli utenti, i modelli che si affidano esclusivamente alle abilità conversazionali faticano spesso a tenere il passo. Risulta quindi essenziale incorporare capacità agentive: abilitando l'uso di strumenti, questi modelli possono estendere i propri confini conoscitivi e risolvere meglio i compiti del mondo reale. Eppure, la ricerca esistente si è concentrata in larga misura sulla percezione e generazione di base, con un'esplorazione relativamente limitata di tali estensioni potenziate da strumenti. Per colmare questa lacuna, presentiamo VoxMind, un framework integrato progettato per dotare i modelli di dialogo parlato end-to-end di capacità agentive complete. Sfruttando il nostro dataset AgentChat curato di 470 ore, incorporiamo un meccanismo "Think-before-Speak" (Pensa-prima-di-parlare), che consente al modello di interiorizzare un ragionamento strutturato come prerequisito critico per la pianificazione e la generazione delle risposte. Inoltre, per mitigare i colli di bottiglia di latenza causati dall'integrazione su larga scala di strumenti, proponiamo un'architettura di Gestione Dinamica degli Strumenti a Multi-Agente. Delegando in modo asincrono i compiti di recupero a un agente ausiliario allineato con la traiettoria di ragionamento del modello principale, questo sistema disaccoppia efficacemente la latenza di inferenza dalla dimensione del set di strumenti. I risultati sperimentali confermano che VoxMind raggiunge miglioramenti significativi nelle prestazioni agentive: rispetto a baseline solide, il tasso di completamento dei task aumenta dal 34,88% al 74,57%, superando Gemini-2.5-Pro nei compiti di agente parlato, pur preservando la qualità conversazionale generale. Il codice sorgente e i dati associati sono pubblicamente disponibili all'indirizzo https://github.com/MM-Speech/VoxMind.

English

Recent end-to-end spoken dialogue models enable natural interaction. However, as user demands become increasingly complex, models that rely solely on conversational abilities often struggle to cope. Incorporating agentic capabilities is therefore essential: by enabling tool use, these models can extend their knowledge boundaries and better solve real-world tasks. Yet, existing research has largely concentrated on core perception and generation, with comparatively limited exploration of such tool-augmented extensions. To bridge this gap, we present VoxMind, an integrated framework designed to equip end-to-end spoken dialogue models with comprehensive agentic abilities. Leveraging our curated 470-hour AgentChat dataset, we incorporate a "Think-before-Speak" mechanism, enabling the model to internalize structured reasoning as a critical prerequisite for planning and response generation. Furthermore, to mitigate latency bottlenecks caused by large-scale tool integration, we propose a Multi-Agent Dynamic Tool Management architecture. By asynchronously delegating retrieval tasks to an auxiliary agent aligned with the main model's reasoning trajectory, this system effectively decouples inference latency from toolset size. Experimental results confirm that VoxMind achieves significant improvements in agent performance: compared with strong baselines, the task completion rate increases from 34.88% to 74.57%, outperforming Gemini-2.5-Pro on spoken agent tasks while preserving general conversational quality. The source code and associated data are publicly available at https://github.com/MM-Speech/VoxMind.

VoxMind: Un Sistema di Dialogo Parlato Agente End-to-End

VoxMind: An End-to-End Agentic Spoken Dialogue System

Abstract

Support