VoxMind: Ein agentenbasiertes gesprochenes Dialogsystem von Anfang bis Ende
VoxMind: An End-to-End Agentic Spoken Dialogue System
April 17, 2026
Autoren: Tianle Liang, Yifu Chen, Shengpeng Ji, Yijun Chen, Zhiyang Jia, Jingyu Lu, Fan Zhuo, Xueyi Pu, Yangzhuo Li, Zhou Zhao
cs.AI
Zusammenfassung
Aktuelle End-to-End-Sprachdialogmodelle ermöglichen eine natürliche Interaktion. Allerdings stoßen Modelle, die sich ausschließlich auf Konversationsfähigkeiten stützen, oft an ihre Grenzen, wenn die Nutzeranforderungen zunehmend komplexer werden. Die Integration agentenhafter Fähigkeiten ist daher unerlässlich: Durch die Nutzung von Werkzeugen können diese Modelle ihre Wissensgrenzen erweitern und reale Aufgaben besser lösen. Dennoch konzentriert sich die bestehende Forschung weitgehend auf die grundlegende Wahrnehmung und Generierung, während die Erforschung solcher werkzeuggestützten Erweiterungen vergleichsweise begrenzt ist. Um diese Lücke zu schließen, stellen wir VoxMind vor, einen integrierten Rahmen, der entwickelt wurde, um End-to-End-Sprachdialogmodelle mit umfassenden agentenhaften Fähigkeiten auszustatten. Unter Nutzung unseres kuratierten 470-Stunden AgentChat-Datensatzes integrieren wir einen "Think-before-Speak"-Mechanismus, der es dem Modell ermöglicht, strukturiertes Schlussfolgern als kritische Voraussetzung für die Planung und Antwortgenerierung zu internalisieren. Darüber hinaus schlagen wir, um Latenzengpässe durch die Integration umfangreicher Werkzeuge zu mildern, eine Multi-Agent Dynamic Tool Management-Architektur vor. Durch die asynchrone Delegierung von Abfragetasks an einen Hilfsagenten, der mit der Denkrichtung des Hauptmodells abgestimmt ist, entkoppelt dieses System die Inferenzlatenz effektiv von der Größe des Werkzeugsatzes. Experimentelle Ergebnisse bestätigen, dass VoxMind signifikante Verbesserungen in der Agentenleistung erzielt: Im Vergleich zu starken Baselines steigt die Aufgabenabschlussrate von 34,88 % auf 74,57 % und übertrifft dabei Gemini-2.5-Pro bei Sprachagentenaufgaben, während die allgemeine Gesprächsqualität erhalten bleibt. Der Quellcode und die zugehörigen Daten sind öffentlich unter https://github.com/MM-Speech/VoxMind verfügbar.
English
Recent end-to-end spoken dialogue models enable natural interaction. However, as user demands become increasingly complex, models that rely solely on conversational abilities often struggle to cope. Incorporating agentic capabilities is therefore essential: by enabling tool use, these models can extend their knowledge boundaries and better solve real-world tasks. Yet, existing research has largely concentrated on core perception and generation, with comparatively limited exploration of such tool-augmented extensions. To bridge this gap, we present VoxMind, an integrated framework designed to equip end-to-end spoken dialogue models with comprehensive agentic abilities. Leveraging our curated 470-hour AgentChat dataset, we incorporate a "Think-before-Speak" mechanism, enabling the model to internalize structured reasoning as a critical prerequisite for planning and response generation. Furthermore, to mitigate latency bottlenecks caused by large-scale tool integration, we propose a Multi-Agent Dynamic Tool Management architecture. By asynchronously delegating retrieval tasks to an auxiliary agent aligned with the main model's reasoning trajectory, this system effectively decouples inference latency from toolset size. Experimental results confirm that VoxMind achieves significant improvements in agent performance: compared with strong baselines, the task completion rate increases from 34.88% to 74.57%, outperforming Gemini-2.5-Pro on spoken agent tasks while preserving general conversational quality. The source code and associated data are publicly available at https://github.com/MM-Speech/VoxMind.