MMAE: Un Benchmark Masivo de Edición de Audio Multitarea

Resumen

Presentamos MMAE (Massive Multitask Audio Editing, por sus siglas en inglés), un punto de referencia masivo para la edición de audio multitarea, que constituye el primer banco de pruebas de evaluación integral diseñado para la edición de audio basada en instrucciones de propósito general. Impulsado por el cambio hacia la creación inteligente, la edición interactiva se ha expandido rápidamente desde los dominios visuales, iniciada por modelos como Nano-banana 2 para imágenes y Gemini-Omni para video, hasta el ámbito del audio. Sin embargo, la infraestructura de evaluación actual presenta un rezago severo, manteniéndose altamente fragmentada y restringida a subdominios específicos u operaciones básicas. A diferencia de los puntos de referencia existentes, que son limitados en alcance, MMAE abarca un amplio espectro de escenarios del mundo real, incluyendo 7 modalidades de audio distintas, como sonido, voz, música y sus mezclas. Además, establecemos una taxonomía integral que abarca 6 niveles de complejidad de tareas, desde modificaciones básicas hasta razonamiento de múltiples pasos y edición iterativa, 2 niveles de granularidad y 8 tipos de operaciones distintas. Cuidadosamente curado mediante colaboración humano-agente, MMAE comprende 2,000 muestras de alta fidelidad emparejadas con un marco de evaluación pionero basado en rúbricas. Al descomponer tareas de formato libre en 17,741 criterios verificables, este sólido paradigma de rúbricas permite una evaluación precisa y multidimensional tanto del seguimiento de instrucciones como de la consistencia contextual. Nuestra evaluación exhaustiva de los modelos líderes revela que los sistemas actuales aún están lejos de lograr ediciones confiables. De manera sorprendente, la Tasa de Coincidencia Exacta (EMR, por sus siglas en inglés) se sitúa constantemente por debajo del 5% y desciende a un 0% absoluto en tareas complejas de modalidad mixta, exponiendo cuellos de botella críticos en la ejecución precisa y la robustez estructural. Esperamos que MMAE sirva como catalizador para futuros avances en la comunidad de creación inteligente, proporcionando una hoja de ruta diagnóstica clara y estableciendo un paradigma de evaluación estandarizado y duradero para los sistemas de edición de audio de próxima generación.

English

We introduce MMAE, a Massive Multitask Audio Editing benchmark, serving as the first comprehensive evaluation testbed designed for general-purpose instruction-based audio editing. Spurred by the shift toward intelligent creation, interactive editing has rapidly expanded from visual domains, pioneered by models like Nano-banana 2 for images and Gemini-Omni for video, into audio. However, the current evaluation infrastructure lags severely, remaining highly fragmented and restricted to specific subdomains or basic operations. Unlike existing benchmarks that are limited in scope, MMAE extends to a broad spectrum of real-world scenarios, encompassing 7 distinct audio modalities, including sound, speech, music, and their mixtures. Furthermore, we establish a comprehensive taxonomy spanning 6 levels of task complexity, from basic modifications to multi-hop reasoning and multi-round editing, 2 levels of granularity, and 8 distinct operation types. Meticulously curated through human-agent collaboration, MMAE comprises 2,000 high-fidelity samples paired with a pioneering rubric-based evaluation framework. By decomposing free-form tasks into 17,741 verifiable criteria, this robust rubric-based paradigm enables a precise, multi-dimensional assessment of both instruction following and context consistency. Our extensive evaluation of leading models reveals that current systems remain far from achieving reliable edits. Strikingly, the Exact Match Rate (EMR) consistently falls below 5% and plummets to an absolute 0% in complex, mixed-modality tasks, exposing critical bottlenecks in precise execution and structural robustness. We hope MMAE will serve as a catalyst for future advances in the intelligent creation community, providing a clear diagnostic roadmap and establishing a standardized, long-lasting evaluation paradigm for next-generation audio editing systems.