Audio-Omni : Élargir la compréhension multimodale à une génération et édition audio polyvalentes

Résumé

Les progrès récents des modèles multimodaux ont stimulé des avancées rapides dans la compréhension, la génération et l'édition audio. Cependant, ces capacités sont généralement traitées par des modèles spécialisés, laissant le développement d'un cadre véritablement unifié capable d'intégrer de manière transparente ces trois tâches insuffisamment exploré. Bien que certains travaux pionniers aient exploré l'unification de la compréhension et de la génération audio, ils restent souvent confinés à des domaines spécifiques. Pour remédier à cela, nous présentons Audio-Omni, le premier cadre end-to-end unifiant la génération et l'édition à travers les domaines généraux du son, de la musique et de la parole, avec des capacités intégrées de compréhension multimodale. Notre architecture combine synergétiquement un Modèle de Langage Multimodal de Grande Taille (Multimodal Large Language Model) figé pour le raisonnement de haut niveau avec un Transformeur à Diffusion (Diffusion Transformer) entraînable pour une synthèse haute fidélité. Pour surmonter la pénurie critique de données en édition audio, nous avons construit AudioEdit, un nouveau jeu de données à grande échelle comprenant plus d'un million de paires d'édition soigneusement préparées. Des expériences approfondies démontrent qu'Audio-Omni atteint des performances de pointe sur une série de benchmarks, surpassant les approches unifiées antérieures tout en atteignant des performances égales ou supérieures à celles des modèles experts spécialisés. Au-delà de ses capacités fondamentales, Audio-Omni présente des capacités héritées remarquables, notamment la génération par raisonnement augmenté par la connaissance, la génération en contexte (in-context generation) et le contrôle multilingue zero-shot pour la génération audio, soulignant une direction prometteuse vers une intelligence audio générative universelle. Le code, le modèle et le jeu de données seront rendus publics sur https://zeyuet.github.io/Audio-Omni.

English

Recent progress in multimodal models has spurred rapid advances in audio understanding, generation, and editing. However, these capabilities are typically addressed by specialized models, leaving the development of a truly unified framework that can seamlessly integrate all three tasks underexplored. While some pioneering works have explored unifying audio understanding and generation, they often remain confined to specific domains. To address this, we introduce Audio-Omni, the first end-to-end framework to unify generation and editing across general sound, music, and speech domains, with integrated multi-modal understanding capabilities. Our architecture synergizes a frozen Multimodal Large Language Model for high-level reasoning with a trainable Diffusion Transformer for high-fidelity synthesis. To overcome the critical data scarcity in audio editing, we construct AudioEdit, a new large-scale dataset comprising over one million meticulously curated editing pairs. Extensive experiments demonstrate that Audio-Omni achieves state-of-the-art performance across a suite of benchmarks, outperforming prior unified approaches while achieving performance on par with or superior to specialized expert models. Beyond its core capabilities, Audio-Omni exhibits remarkable inherited capabilities, including knowledge-augmented reasoning generation, in-context generation, and zero-shot cross-lingual control for audio generation, highlighting a promising direction toward universal generative audio intelligence. The code, model, and dataset will be publicly released on https://zeyuet.github.io/Audio-Omni.

Audio-Omni : Élargir la compréhension multimodale à une génération et édition audio polyvalentes

Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing

Résumé

Support