Audio-Omni: Extendiendo la Comprensión Multimodal hacia una Generación y Edición de Audio Versátil

Resumen

Los recientes avances en modelos multimodales han impulsado un rápido progreso en la comprensión, generación y edición de audio. Sin embargo, estas capacidades suelen ser abordadas por modelos especializados, dejando poco explorado el desarrollo de un marco verdaderamente unificado que pueda integrar de manera fluida las tres tareas. Si bien algunos trabajos pioneros han explorado la unificación de la comprensión y generación de audio, a menudo se limitan a dominios específicos. Para abordar esto, presentamos Audio-Omni, el primer marco integral de extremo a extremo que unifica la generación y edición en los dominios generales de sonido, música y voz, con capacidades integradas de comprensión multimodal. Nuestra arquitectura combina de forma sinérgica un Modelo de Lenguaje Grande Multimodal congelado para el razonamiento de alto nivel con un Transformer de Difusión entrenable para la síntesis de alta fidelidad. Para superar la crítica escasez de datos en la edición de audio, construimos AudioEdit, un nuevo conjunto de datos a gran escala que comprende más de un millón de pares de edición meticulosamente seleccionados. Experimentos exhaustivos demuestran que Audio-Omni logra un rendimiento de vanguardia en una serie de benchmarks, superando a enfoques unificados anteriores y alcanzando un desempeño comparable o superior al de modelos especializados expertos. Más allá de sus capacidades centrales, Audio-Omni exhibe notables capacidades heredadas, incluyendo generación por razonamiento aumentado con conocimiento, generación en contexto y control multilingüe de cero disparos para la generación de audio, destacando una dirección prometedora hacia una inteligencia auditiva generativa universal. El código, el modelo y el conjunto de datos se publicarán en https://zeyuet.github.io/Audio-Omni.

English

Recent progress in multimodal models has spurred rapid advances in audio understanding, generation, and editing. However, these capabilities are typically addressed by specialized models, leaving the development of a truly unified framework that can seamlessly integrate all three tasks underexplored. While some pioneering works have explored unifying audio understanding and generation, they often remain confined to specific domains. To address this, we introduce Audio-Omni, the first end-to-end framework to unify generation and editing across general sound, music, and speech domains, with integrated multi-modal understanding capabilities. Our architecture synergizes a frozen Multimodal Large Language Model for high-level reasoning with a trainable Diffusion Transformer for high-fidelity synthesis. To overcome the critical data scarcity in audio editing, we construct AudioEdit, a new large-scale dataset comprising over one million meticulously curated editing pairs. Extensive experiments demonstrate that Audio-Omni achieves state-of-the-art performance across a suite of benchmarks, outperforming prior unified approaches while achieving performance on par with or superior to specialized expert models. Beyond its core capabilities, Audio-Omni exhibits remarkable inherited capabilities, including knowledge-augmented reasoning generation, in-context generation, and zero-shot cross-lingual control for audio generation, highlighting a promising direction toward universal generative audio intelligence. The code, model, and dataset will be publicly released on https://zeyuet.github.io/Audio-Omni.

Audio-Omni: Extendiendo la Comprensión Multimodal hacia una Generación y Edición de Audio Versátil

Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing

Resumen

Support