ChatPaper.aiChatPaper

Rapport Technique Covo-Audio

Covo-Audio Technical Report

February 10, 2026
papers.authors: Wenfu Wang, Chenxing Li, Liqiang Zhang, Yiyang Zhao, Yuxiang Zou, Hanzhao Li, Mingyu Cui, Hao Zhang, Kun Wei, Le Xu, Zikang Huang, Jiajun Xu, Jiliang Hu, Xiang He, Zeyu Xie, Jiawen Kang, Youjun Chen, Meng Yu, Dong Yu, Rilin Chen, Linlin Di, Shulin Feng, Na Hu, Yang Liu, Bang Wang, Shan Yang
cs.AI

papers.abstract

Dans ce travail, nous présentons Covo-Audio, un LALM (Large Audio Language Model) de bout en bout à 7 milliards de paramètres qui traite directement des entrées audio continues et génère des sorties audio au sein d'une architecture unique et unifiée. Grâce à un pré-entraînement à grande échelle soigneusement organisé et à un post-entraînement ciblé, Covo-Audio atteint des performances à l'état de l'art ou compétitives parmi les modèles d'échelle comparable sur un large éventail de tâches, incluant la modélisation parole-texte, le dialogue oral, la compréhension de la parole, la compréhension audio et l'interaction vocale en duplex intégral. Des évaluations approfondies démontrent que le modèle de base pré-entraîné présente de solides capacités de compréhension parole-texte et de raisonnement sémantique sur plusieurs benchmarks, surpassant les modèles open-source représentatifs de taille similaire. De plus, Covo-Audio-Chat, la variante orientée dialogue, démontre de fortes capacités conversationnelles orales, incluant la compréhension, le raisonnement contextuel, le suivi d'instructions et la génération de réponses contextuellement appropriées et empathiques, validant son applicabilité à des scénarios réels d'assistants conversationnels. Covo-Audio-Chat-FD, le modèle évolué en duplex intégral, atteint des performances substantiellement supérieures à la fois sur les capacités de dialogue oral et les comportements d'interaction en duplex intégral, démontrant sa compétence en matière de robustesse pratique. Pour atténuer le coût élevé du déploiement de LALM de bout en bout pour des systèmes conversationnels naturels, nous proposons une stratégie de découplage intelligence-haut-parleur qui sépare l'intelligence dialogue du rendu vocal, permettant une personnalisation vocale flexible avec un minimum de données de synthèse vocale (TTS) tout en préservant les performances conversationnelles. Globalement, nos résultats soulignent le fort potentiel des modèles à l'échelle des 7B pour intégrer une intelligence audio sophistiquée avec un raisonnement sémantique de haut niveau, et suggèrent une voie évolutive vers des LALM plus performants et polyvalents.
English
In this work, we present Covo-Audio, a 7B-parameter end-to-end LALM that directly processes continuous audio inputs and generates audio outputs within a single unified architecture. Through large-scale curated pretraining and targeted post-training, Covo-Audio achieves state-of-the-art or competitive performance among models of comparable scale across a broad spectrum of tasks, including speech-text modeling, spoken dialogue, speech understanding, audio understanding, and full-duplex voice interaction. Extensive evaluations demonstrate that the pretrained foundation model exhibits strong speech-text comprehension and semantic reasoning capabilities on multiple benchmarks, outperforming representative open-source models of comparable scale. Furthermore, Covo-Audio-Chat, the dialogue-oriented variant, demonstrates strong spoken conversational abilities, including understanding, contextual reasoning, instruction following, and generating contextually appropriate and empathetic responses, validating its applicability to real-world conversational assistant scenarios. Covo-Audio-Chat-FD, the evolved full-duplex model, achieves substantially superior performance on both spoken dialogue capabilities and full-duplex interaction behaviors, demonstrating its competence in practical robustness. To mitigate the high cost of deploying end-to-end LALMs for natural conversational systems, we propose an intelligence-speaker decoupling strategy that separates dialogue intelligence from voice rendering, enabling flexible voice customization with minimal text-to-speech (TTS) data while preserving dialogue performance. Overall, our results highlight the strong potential of 7B-scale models to integrate sophisticated audio intelligence with high-level semantic reasoning, and suggest a scalable path toward more capable and versatile LALMs.
PDF70February 12, 2026