MMAE: Um Benchmark Massivo de Edição de Áudio Multitarefa

Resumo

Apresentamos o MMAE, um benchmark de edição de áudio massiva e multitarefa, que constitui o primeiro ambiente de teste abrangente para edição de áudio baseada em instruções de uso geral. Impulsionado pela transição para a criação inteligente, a edição interativa expandiu-se rapidamente dos domínios visuais, pioneiramente exemplificada por modelos como Nano-banana 2 para imagens e Gemini-Omni para vídeo, para o áudio. No entanto, a infraestrutura de avaliação atual apresenta graves lacunas, permanecendo altamente fragmentada e restrita a subdomínios específicos ou operações básicas. Diferentemente dos benchmarks existentes, que têm escopo limitado, o MMAE abrange um amplo espectro de cenários do mundo real, incluindo 7 modalidades distintas de áudio — som, fala, música e suas misturas. Além disso, estabelecemos uma taxonomia abrangente que compreende 6 níveis de complexidade de tarefas, desde modificações básicas até raciocínio multi-salto e edição em múltiplas rodadas, 2 níveis de granularidade e 8 tipos distintos de operação. Meticulosamente curados por meio de colaboração humano-agente, os 2.000 exemplares de alta fidelidade do MMAE são acompanhados por uma estrutura de avaliação inovadora baseada em rubricas. Ao decompor tarefas de formato livre em 17.741 critérios verificáveis, esse paradigma robusto de rubricas possibilita uma avaliação precisa e multidimensional, tanto do seguimento de instruções quanto da consistência de contexto. Nossa extensa avaliação dos principais modelos revela que os sistemas atuais ainda estão longe de realizar edições confiáveis. Notadamente, a Taxa de Correspondência Exata (EMR) permanece consistentemente abaixo de 5% e cai para 0% absoluto em tarefas complexas de modalidades mistas, expondo gargalos críticos na execução precisa e na robustez estrutural. Esperamos que o MMAE sirva como catalisador para avanços futuros na comunidade de criação inteligente, fornecendo um roteiro de diagnóstico claro e estabelecendo um paradigma de avaliação padronizado e duradouro para a próxima geração de sistemas de edição de áudio.

English

We introduce MMAE, a Massive Multitask Audio Editing benchmark, serving as the first comprehensive evaluation testbed designed for general-purpose instruction-based audio editing. Spurred by the shift toward intelligent creation, interactive editing has rapidly expanded from visual domains, pioneered by models like Nano-banana 2 for images and Gemini-Omni for video, into audio. However, the current evaluation infrastructure lags severely, remaining highly fragmented and restricted to specific subdomains or basic operations. Unlike existing benchmarks that are limited in scope, MMAE extends to a broad spectrum of real-world scenarios, encompassing 7 distinct audio modalities, including sound, speech, music, and their mixtures. Furthermore, we establish a comprehensive taxonomy spanning 6 levels of task complexity, from basic modifications to multi-hop reasoning and multi-round editing, 2 levels of granularity, and 8 distinct operation types. Meticulously curated through human-agent collaboration, MMAE comprises 2,000 high-fidelity samples paired with a pioneering rubric-based evaluation framework. By decomposing free-form tasks into 17,741 verifiable criteria, this robust rubric-based paradigm enables a precise, multi-dimensional assessment of both instruction following and context consistency. Our extensive evaluation of leading models reveals that current systems remain far from achieving reliable edits. Strikingly, the Exact Match Rate (EMR) consistently falls below 5% and plummets to an absolute 0% in complex, mixed-modality tasks, exposing critical bottlenecks in precise execution and structural robustness. We hope MMAE will serve as a catalyst for future advances in the intelligent creation community, providing a clear diagnostic roadmap and establishing a standardized, long-lasting evaluation paradigm for next-generation audio editing systems.