VoxMind: Een End-to-End Agentiëre Spraakdialoogsysteem

Samenvatting

Recente end-to-end gesproken dialoogmodellen maken natuurlijke interactie mogelijk. Naarmate gebruikerseisen echter steeds complexer worden, worstelen modellen die uitsluitend op conversatievaardigheden vertrouwen vaak om bij te benen. Het integreren van agent-mogelijkheden is daarom essentieel: door het gebruik van tools kunnen deze modellen hun kennisgrenzen verleggen en real-world taken beter oplossen. Toch heeft bestaand onderzoek zich grotendeels geconcentreerd op kernperceptie en -generatie, met relatief beperkte verkenning van dergelijke tool-augmented uitbreidingen. Om deze kloof te overbruggen, presenteren wij VoxMind, een geïntegreerd raamwerk ontworpen om end-to-end gesproken dialoogmodellen uit te rusten met uitgebreide agent-mogelijkheden. Gebruikmakend van onze samengestelde 470-uur durende AgentChat-dataset, integreren we een "Think-before-Speak"-mechanisme, waardoor het model gestructureerd redeneren kan internaliseren als een kritische voorwaarde voor planning en responsgeneratie. Verder, om latentieknelpunten veroorzaakt door grootschalige toolintegratie te verzachten, stellen we een Multi-Agent Dynamic Tool Management-architectuur voor. Door retrievalthreads asynchroon te delegeren naar een hulp-agent die is afgestemd op de redeneertrajecten van het hoofdmodel, ontkoppelt dit systeem effectief de inferentielatentie van de toolsetgrootte. Experimentele resultaten bevestigen dat VoxMind significante verbeteringen bereikt in agentprestaties: in vergelijking met sterke baseline-modellen stijgt de taakvoltooiingsratio van 34,88% naar 74,57%, waarmee het Gemini-2.5-Pro overtreft op gesproken agenttaken, terwijl de algemene gesprekskwaliteit behouden blijft. De broncode en bijbehorende data zijn openbaar beschikbaar op https://github.com/MM-Speech/VoxMind.

English

Recent end-to-end spoken dialogue models enable natural interaction. However, as user demands become increasingly complex, models that rely solely on conversational abilities often struggle to cope. Incorporating agentic capabilities is therefore essential: by enabling tool use, these models can extend their knowledge boundaries and better solve real-world tasks. Yet, existing research has largely concentrated on core perception and generation, with comparatively limited exploration of such tool-augmented extensions. To bridge this gap, we present VoxMind, an integrated framework designed to equip end-to-end spoken dialogue models with comprehensive agentic abilities. Leveraging our curated 470-hour AgentChat dataset, we incorporate a "Think-before-Speak" mechanism, enabling the model to internalize structured reasoning as a critical prerequisite for planning and response generation. Furthermore, to mitigate latency bottlenecks caused by large-scale tool integration, we propose a Multi-Agent Dynamic Tool Management architecture. By asynchronously delegating retrieval tasks to an auxiliary agent aligned with the main model's reasoning trajectory, this system effectively decouples inference latency from toolset size. Experimental results confirm that VoxMind achieves significant improvements in agent performance: compared with strong baselines, the task completion rate increases from 34.88% to 74.57%, outperforming Gemini-2.5-Pro on spoken agent tasks while preserving general conversational quality. The source code and associated data are publicly available at https://github.com/MM-Speech/VoxMind.

VoxMind: Een End-to-End Agentiëre Spraakdialoogsysteem

VoxMind: An End-to-End Agentic Spoken Dialogue System

Samenvatting

Support