Audio-Omni: Estendere la comprensione multimodale verso una generazione e un'editing audio versatile

Abstract

I recenti progressi nei modelli multimodali hanno stimolato rapidi avanzamenti nella comprensione, generazione e modifica dell'audio. Tuttavia, queste capacità sono tipicamente affrontate da modelli specializzati, lasciando lo sviluppo di un framework veramente unificato in grado di integrare perfettamente tutti e tre i compiti ancora poco esplorato. Sebbene alcuni lavori pionieristici abbiano esplorato l'unificazione della comprensione e della generazione audio, essi rimangono spesso confinati a domini specifici. Per affrontare questa lacuna, introduciamo Audio-Omni, il primo framework end-to-end che unifica generazione e modifica attraverso i domini generali del suono, della musica e della voce, con integrate capacità di comprensione multimodale. La nostra architettura sinergizza un Modello Linguistico Multimodale Large congelato per il ragionamento di alto livello con un Diffusion Transformer addestrabile per la sintesi ad alta fedeltà. Per superare la critica carenza di dati nella modifica audio, abbiamo costruito AudioEdit, un nuovo dataset su larga scala comprendente oltre un milione di coppie di editing meticolosamente curate. Esperimenti estensivi dimostrano che Audio-Omni raggiunge prestazioni allo stato dell'arte su una serie di benchmark, superando gli approcci unificati precedenti e ottenendo prestazioni pari o superiori a modelli specialistici esperti. Oltre alle sue capacità fondamentali, Audio-Omni mostra notevoli capacità ereditate, tra cui la generazione con ragionamento arricchito da conoscenza, la generazione in-context e il controllo cross-linguale zero-shot per la generazione audio, evidenziando una direzione promettente verso un'intelligenza audio generativa universale. Il codice, il modello e il dataset saranno rilasciati pubblicamente su https://zeyuet.github.io/Audio-Omni.

English

Recent progress in multimodal models has spurred rapid advances in audio understanding, generation, and editing. However, these capabilities are typically addressed by specialized models, leaving the development of a truly unified framework that can seamlessly integrate all three tasks underexplored. While some pioneering works have explored unifying audio understanding and generation, they often remain confined to specific domains. To address this, we introduce Audio-Omni, the first end-to-end framework to unify generation and editing across general sound, music, and speech domains, with integrated multi-modal understanding capabilities. Our architecture synergizes a frozen Multimodal Large Language Model for high-level reasoning with a trainable Diffusion Transformer for high-fidelity synthesis. To overcome the critical data scarcity in audio editing, we construct AudioEdit, a new large-scale dataset comprising over one million meticulously curated editing pairs. Extensive experiments demonstrate that Audio-Omni achieves state-of-the-art performance across a suite of benchmarks, outperforming prior unified approaches while achieving performance on par with or superior to specialized expert models. Beyond its core capabilities, Audio-Omni exhibits remarkable inherited capabilities, including knowledge-augmented reasoning generation, in-context generation, and zero-shot cross-lingual control for audio generation, highlighting a promising direction toward universal generative audio intelligence. The code, model, and dataset will be publicly released on https://zeyuet.github.io/Audio-Omni.

Audio-Omni: Estendere la comprensione multimodale verso una generazione e un'editing audio versatile

Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing

Abstract

Support