コボオーディオ技術報告書
Covo-Audio Technical Report
February 10, 2026
著者: Wenfu Wang, Chenxing Li, Liqiang Zhang, Yiyang Zhao, Yuxiang Zou, Hanzhao Li, Mingyu Cui, Hao Zhang, Kun Wei, Le Xu, Zikang Huang, Jiajun Xu, Jiliang Hu, Xiang He, Zeyu Xie, Jiawen Kang, Youjun Chen, Meng Yu, Dong Yu, Rilin Chen, Linlin Di, Shulin Feng, Na Hu, Yang Liu, Bang Wang, Shan Yang
cs.AI
要旨
本研究では、7Bパラメータ規模のエンドツーエンドLALMであるCovo-Audioを提案する。本モデルは連続的な音声入力を直接処理し、単一の統一アーキテクチャ内で音声出力を生成する。大規模に精選された事前学習と標的化された事後学習を通じて、Covo-Audioは音声-テキストモデリング、音声対話、音声理解、音声理解、全二重音声インタラクションなど、広範なタスクにおいて、同規模モデルの中で最先端または競争力のある性能を達成する。大規模な評価により、事前学習済み基盤モデルが複数のベンチマークで強力な音声-テキスト理解能力と意味推論能力を示し、同規模の代表的なオープンソースモデルを凌駕することが実証された。さらに、対話特化型バリアントであるCovo-Audio-Chatは、理解力、文脈推論、指示追従、文脈に即した共感的な応答生成を含む優れた音声対話能力を示し、実世界の対話アシスタントシナリオへの適用可能性を検証した。進化した全二重モデルであるCovo-Audio-Chat-FDは、音声対話能力と全二重インタラクション行動の両方で大幅に優れた性能を達成し、実用的な堅牢性における有効性を実証した。自然な対話システムにおけるエンドツーエンドLALMの導入コストの高さを軽減するため、対話知能と音声レンダリングを分離するインテリジェンス-スピーカー分離戦略を提案する。これにより、対話性能を維持しつつ、最小限のTTSデータで柔軟な音声カスタマイズを可能にする。全体として、我々の結果は、7B規模のモデルが高度な音声知能と高水準の意味推論を統合する強力な可能性を浮き彫りにし、より高機能で汎用性の高いLALMへのスケーラブルな道筋を示唆している。
English
In this work, we present Covo-Audio, a 7B-parameter end-to-end LALM that directly processes continuous audio inputs and generates audio outputs within a single unified architecture. Through large-scale curated pretraining and targeted post-training, Covo-Audio achieves state-of-the-art or competitive performance among models of comparable scale across a broad spectrum of tasks, including speech-text modeling, spoken dialogue, speech understanding, audio understanding, and full-duplex voice interaction. Extensive evaluations demonstrate that the pretrained foundation model exhibits strong speech-text comprehension and semantic reasoning capabilities on multiple benchmarks, outperforming representative open-source models of comparable scale. Furthermore, Covo-Audio-Chat, the dialogue-oriented variant, demonstrates strong spoken conversational abilities, including understanding, contextual reasoning, instruction following, and generating contextually appropriate and empathetic responses, validating its applicability to real-world conversational assistant scenarios. Covo-Audio-Chat-FD, the evolved full-duplex model, achieves substantially superior performance on both spoken dialogue capabilities and full-duplex interaction behaviors, demonstrating its competence in practical robustness. To mitigate the high cost of deploying end-to-end LALMs for natural conversational systems, we propose an intelligence-speaker decoupling strategy that separates dialogue intelligence from voice rendering, enabling flexible voice customization with minimal text-to-speech (TTS) data while preserving dialogue performance. Overall, our results highlight the strong potential of 7B-scale models to integrate sophisticated audio intelligence with high-level semantic reasoning, and suggest a scalable path toward more capable and versatile LALMs.