VoxMind: 종단 간 에이전트 음성 대화 시스템
VoxMind: An End-to-End Agentic Spoken Dialogue System
April 17, 2026
저자: Tianle Liang, Yifu Chen, Shengpeng Ji, Yijun Chen, Zhiyang Jia, Jingyu Lu, Fan Zhuo, Xueyi Pu, Yangzhuo Li, Zhou Zhao
cs.AI
초록
최근 등장한 종단 간 음성 대화 모델은 자연스러운 상호작용을 가능하게 합니다. 그러나 사용자 요구가 점점 더 복잡해짐에 따라 대화 능력만으로는 이러한 요구를 충족시키기 어려운 경우가 많습니다. 따라서 에이전트 능력의 통합이 필수적입니다: 도구 사용을 통해 이러한 모델은 지식의 경계를 확장하고 실제 업무를 더 효과적으로 해결할 수 있습니다. 그러나 기존 연구는 주로 핵심 인식 및 생성 기술에 집중되어 있으며, 이러한 도구 기반 확장에 대한 탐구는 상대적으로 제한적이었습니다. 이러한 격차를 해소하기 위해, 본 논문은 종단 간 음성 대화 모델에 포괄적인 에이전트 능력을 부여하기 위해 설계된 통합 프레임워크인 VoxMind를 제안합니다. 저희가 직접 구축한 470시간 분량의 AgentChat 데이터셋을 활용하여, 모델이 계획 및 응답 생성에 앞서 구조화된 추론을 필수 전제 조건으로 내재화할 수 있는 "Think-before-Speak" 메커니즘을 도입했습니다. 더 나아가 대규모 도구 통합으로 인한 지연 시간 병목 현상을 완화하기 위해 Multi-Agent Dynamic Tool Management 아키텍처를 제안합니다. 검색 작업을 주 모델의 추론 경로와 일치하는 보조 에이전트에 비동기적으로 위임함으로써, 이 시스템은 추론 지연 시간을 도구 집합의 크기로부터 효과적으로 분리합니다. 실험 결과, VoxMind가 에이전트 성능에서 유의미한 향상을 달성했음을 확인했습니다: 강력한 베이스라인 대비 작업 완료율이 34.88%에서 74.57%로 증가하여 일반적인 대화 품질을 유지하면서 음성 에이전트 작업에서 Gemini-2.5-Pro를 능가했습니다. 소스 코드 및 관련 데이터는 https://github.com/MM-Speech/VoxMind에서 공개되어 있습니다.
English
Recent end-to-end spoken dialogue models enable natural interaction. However, as user demands become increasingly complex, models that rely solely on conversational abilities often struggle to cope. Incorporating agentic capabilities is therefore essential: by enabling tool use, these models can extend their knowledge boundaries and better solve real-world tasks. Yet, existing research has largely concentrated on core perception and generation, with comparatively limited exploration of such tool-augmented extensions. To bridge this gap, we present VoxMind, an integrated framework designed to equip end-to-end spoken dialogue models with comprehensive agentic abilities. Leveraging our curated 470-hour AgentChat dataset, we incorporate a "Think-before-Speak" mechanism, enabling the model to internalize structured reasoning as a critical prerequisite for planning and response generation. Furthermore, to mitigate latency bottlenecks caused by large-scale tool integration, we propose a Multi-Agent Dynamic Tool Management architecture. By asynchronously delegating retrieval tasks to an auxiliary agent aligned with the main model's reasoning trajectory, this system effectively decouples inference latency from toolset size. Experimental results confirm that VoxMind achieves significant improvements in agent performance: compared with strong baselines, the task completion rate increases from 34.88% to 74.57%, outperforming Gemini-2.5-Pro on spoken agent tasks while preserving general conversational quality. The source code and associated data are publicly available at https://github.com/MM-Speech/VoxMind.