Rapporto Tecnico Covo-Audio

Abstract

In questo lavoro presentiamo Covo-Audio, un LALM end-to-end da 7 miliardi di parametri che elabora direttamente input audio continui e genera output audio all'interno di un'unica architettura unificata. Grazie a un pre-addestramento su larga scala curato e a un post-addestramento mirato, Covo-Audio raggiunge prestazioni allo stato dell'arte o competitive tra i modelli di scala comparabile in un'ampia gamma di compiti, inclusi la modellazione speech-text, il dialogo parlato, la comprensione del parlato, la comprensione audio e l'interazione vocale full-duplex. Valutazioni estensive dimostrano che il modello base pre-addestrato mostra forti capacità di comprensione speech-text e di ragionamento semantico su molteplici benchmark, superando modelli open-source rappresentativi di scala simile. Inoltre, Covo-Audio-Chat, la variante orientata al dialogo, dimostra forti abilità conversazionali parlate, includendo comprensione, ragionamento contestuale, rispetto delle istruzioni e generazione di risposte contestualmente appropriate ed empatiche, validandone l'applicabilità a scenari reali di assistenti conversazionali. Covo-Audio-Chat-FD, il modello evoluto full-duplex, raggiunge prestazioni sostanzialmente superiori sia nelle capacità di dialogo parlato che nei comportamenti di interazione full-duplex, dimostrando la sua competenza nella robustezza pratica. Per mitigare l'alto costo di distribuzione dei LALM end-to-end per sistemi conversazionali naturali, proponiamo una strategia di disaccoppiamento intelligenza-altoparlante che separa l'intelligenza dialogica dal rendering vocale, consentendo una personalizzazione vocale flessibile con dati text-to-speech (TTS) minimi preservando le prestazioni dialogiche. Nel complesso, i nostri risultati evidenziano il forte potenziale dei modelli su scala 7B nell'integrare una sofisticata intelligenza audio con un ragionamento semantico di alto livello e suggeriscono un percorso scalabile verso LALM più capaci e versatili.

English

In this work, we present Covo-Audio, a 7B-parameter end-to-end LALM that directly processes continuous audio inputs and generates audio outputs within a single unified architecture. Through large-scale curated pretraining and targeted post-training, Covo-Audio achieves state-of-the-art or competitive performance among models of comparable scale across a broad spectrum of tasks, including speech-text modeling, spoken dialogue, speech understanding, audio understanding, and full-duplex voice interaction. Extensive evaluations demonstrate that the pretrained foundation model exhibits strong speech-text comprehension and semantic reasoning capabilities on multiple benchmarks, outperforming representative open-source models of comparable scale. Furthermore, Covo-Audio-Chat, the dialogue-oriented variant, demonstrates strong spoken conversational abilities, including understanding, contextual reasoning, instruction following, and generating contextually appropriate and empathetic responses, validating its applicability to real-world conversational assistant scenarios. Covo-Audio-Chat-FD, the evolved full-duplex model, achieves substantially superior performance on both spoken dialogue capabilities and full-duplex interaction behaviors, demonstrating its competence in practical robustness. To mitigate the high cost of deploying end-to-end LALMs for natural conversational systems, we propose an intelligence-speaker decoupling strategy that separates dialogue intelligence from voice rendering, enabling flexible voice customization with minimal text-to-speech (TTS) data while preserving dialogue performance. Overall, our results highlight the strong potential of 7B-scale models to integrate sophisticated audio intelligence with high-level semantic reasoning, and suggest a scalable path toward more capable and versatile LALMs.

Rapporto Tecnico Covo-Audio

Covo-Audio Technical Report

Abstract

Support