ChatPaper.aiChatPaper

코보-오디오 기술 보고서

Covo-Audio Technical Report

February 10, 2026
저자: Wenfu Wang, Chenxing Li, Liqiang Zhang, Yiyang Zhao, Yuxiang Zou, Hanzhao Li, Mingyu Cui, Hao Zhang, Kun Wei, Le Xu, Zikang Huang, Jiajun Xu, Jiliang Hu, Xiang He, Zeyu Xie, Jiawen Kang, Youjun Chen, Meng Yu, Dong Yu, Rilin Chen, Linlin Di, Shulin Feng, Na Hu, Yang Liu, Bang Wang, Shan Yang
cs.AI

초록

본 연구에서는 연속 오디오 입력을 직접 처리하고 단일 통합 아키텍처 내에서 오디오 출력을 생성하는 70억 파라미터 규모의 end-to-end LALM인 Covo-Audio를 제안한다. 대규모로 정제된 사전 학습과 특화된 사후 학습을 통해 Covo-Audio는 음성-텍스트 모델링, 구화 대화, 음성 이해, 오디오 이해, 전이중 음성 상호작용 등 광범위한 작업 영역에서 동급 규모 모델 대비 최첨단 또는 경쟁력 있는 성능을 달성한다. 다양한 평가를 통해 사전 학습된 기초 모델이 여러 벤치마크에서 강력한 음성-텍스트 이해 능력과 의미론적 추론 능력을 보여주며, 동급 규모의 대표적인 오픈소스 모델들을 능가함을 입증했다. 더 나아가 대화 특화 변형인 Covo-Audio-Chat은 이해, 맥락적 추론, 지시 따르기, 맥락에 적합하고 공감적인 응답 생성 등을 포함한 강력한 구화 대화 능력을 보여주어 실제 대화형 어시스턴트 시나리오에의 적용 가능성을 검증했다. 발전된 전이중 모델인 Covo-Audio-Chat-FD는 구화 대화 능력과 전이중 상호작용 행동 모두에서 상당히 우수한 성능을 달성하여 실용적인 견고성에서의 유능함을 입증했다. 자연스러운 대화 시스템을 위한 end-to-end LALM 배치의 높은 비용을 완화하기 위해, 우리는 대화 지능과 음성 렌더링을 분리하는 지능-스피커 분리 전략을 제안한다. 이는 대화 성능을 유지하면서 최소한의 TTS 데이터로 유연한 음성 커스터마이징을 가능하게 한다. 전반적으로, 우리의 결과는 70억 규모 모델이 정교한 오디오 지능과 높은 수준의 의미론적 추론을 통합할 수 있는 강력한 잠재력을 부각하며, 더 유능하고 다재다능한 LALM으로 나아가는 확장 가능한 경로를 제시한다.
English
In this work, we present Covo-Audio, a 7B-parameter end-to-end LALM that directly processes continuous audio inputs and generates audio outputs within a single unified architecture. Through large-scale curated pretraining and targeted post-training, Covo-Audio achieves state-of-the-art or competitive performance among models of comparable scale across a broad spectrum of tasks, including speech-text modeling, spoken dialogue, speech understanding, audio understanding, and full-duplex voice interaction. Extensive evaluations demonstrate that the pretrained foundation model exhibits strong speech-text comprehension and semantic reasoning capabilities on multiple benchmarks, outperforming representative open-source models of comparable scale. Furthermore, Covo-Audio-Chat, the dialogue-oriented variant, demonstrates strong spoken conversational abilities, including understanding, contextual reasoning, instruction following, and generating contextually appropriate and empathetic responses, validating its applicability to real-world conversational assistant scenarios. Covo-Audio-Chat-FD, the evolved full-duplex model, achieves substantially superior performance on both spoken dialogue capabilities and full-duplex interaction behaviors, demonstrating its competence in practical robustness. To mitigate the high cost of deploying end-to-end LALMs for natural conversational systems, we propose an intelligence-speaker decoupling strategy that separates dialogue intelligence from voice rendering, enabling flexible voice customization with minimal text-to-speech (TTS) data while preserving dialogue performance. Overall, our results highlight the strong potential of 7B-scale models to integrate sophisticated audio intelligence with high-level semantic reasoning, and suggest a scalable path toward more capable and versatile LALMs.
PDF70February 12, 2026