Audio-Omni: Uitbreiding van Multimodaal Begrip naar Veelzijdige Audiogeneratie en -bewerking

Samenvatting

Recente vooruitgang in multimodale modellen heeft een snelle ontwikkeling gestimuleerd op het gebied van audio-begrip, -generatie en -bewerking. Deze mogelijkheden worden echter doorgaans aangepakt door gespecialiseerde modellen, waardoor de ontwikkeling van een werkelijk uniform raamwerk dat deze drie taken naadloos kan integreren onderbelicht blijft. Hoewel enkele baanbrekende werken de eenwording van audio-begrip en -generatie hebben onderzocht, blijven deze vaak beperkt tot specifieke domeinen. Om dit aan te pakken, introduceren we Audio-Omni, het eerste end-to-end raamwerk dat generatie en bewerking verenigt voor algemeen geluid, muziek en spraak, met geïntegreerde multimodale begripscapaciteiten. Onze architectuur combineert een bevroren Multimodaal Taalmodel voor hoogwaardige redenering met een trainbare Diffusion Transformer voor hoogwaardige synthese. Om het kritieke gebrek aan data voor audiobewerking te overwinnen, construeren we AudioEdit, een nieuwe grootschalige dataset met meer dan een miljoen zorgvuldig samengestelde bewerkingsparen. Uitgebreide experimenten tonen aan dat Audio-Omni state-of-the-art prestaties levert op een reeks benchmarks, waarbij het eerdere uniforme benaderingen overtreft en prestaties levert die gelijk zijn aan of superieur aan gespecialiseerde expertmodellen. Naast deze kerneigenschappen vertoont Audio-Omni opmerkelijke geërfte capaciteiten, waaronder kennis-augmented reasoning generation, in-context generatie en zero-shot cross-linguale controle voor audiogeneratie, wat een veelbelovende richting aangeeft naar universele generatieve audio-intelligentie. De code, het model en de dataset zullen openbaar worden vrijgegeven op https://zeyuet.github.io/Audio-Omni.

English

Recent progress in multimodal models has spurred rapid advances in audio understanding, generation, and editing. However, these capabilities are typically addressed by specialized models, leaving the development of a truly unified framework that can seamlessly integrate all three tasks underexplored. While some pioneering works have explored unifying audio understanding and generation, they often remain confined to specific domains. To address this, we introduce Audio-Omni, the first end-to-end framework to unify generation and editing across general sound, music, and speech domains, with integrated multi-modal understanding capabilities. Our architecture synergizes a frozen Multimodal Large Language Model for high-level reasoning with a trainable Diffusion Transformer for high-fidelity synthesis. To overcome the critical data scarcity in audio editing, we construct AudioEdit, a new large-scale dataset comprising over one million meticulously curated editing pairs. Extensive experiments demonstrate that Audio-Omni achieves state-of-the-art performance across a suite of benchmarks, outperforming prior unified approaches while achieving performance on par with or superior to specialized expert models. Beyond its core capabilities, Audio-Omni exhibits remarkable inherited capabilities, including knowledge-augmented reasoning generation, in-context generation, and zero-shot cross-lingual control for audio generation, highlighting a promising direction toward universal generative audio intelligence. The code, model, and dataset will be publicly released on https://zeyuet.github.io/Audio-Omni.

Audio-Omni: Uitbreiding van Multimodaal Begrip naar Veelzijdige Audiogeneratie en -bewerking

Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing

Samenvatting

Support