MMAE: Um Benchmark Massivo de Edição de Áudio Multitarefa
MMAE: A Massive Multitask Audio Editing Benchmark
June 5, 2026
Autores: Ziyang Ma, Ruiqi Yan, Ruiyang Xu, Jie Fang, Zhikang Niu, Yi-Wen Chao, Wenming Tu, Tianrui Wang, Auden, Qi Chen, Wenxi Chen, Jiaying Chi, Yanru Huo, Zixuan Jiang, Xiquan Li, Yalin Li, Junxi Liu, Minghao Liu, Binghao Qiang, Yijia Shan, Zheshu Song, Tian Tan, Zixiang Wang, Zeyu Xie, Zhifei Xie, Xiaoyu Xing, Qixiang Xu, Chen Yang, Guanrou Yang, Shan Yang, Yifan Yang, Steve Yves, Haotian Zhang, Haina Zhu, Kai Yu, Liefeng Bo, Eng-Siong Chng, Xie Chen
cs.AI
Resumo
Apresentamos o MMAE, um benchmark de edição de áudio massiva e multitarefa, que constitui o primeiro ambiente de teste abrangente para edição de áudio baseada em instruções de uso geral. Impulsionado pela transição para a criação inteligente, a edição interativa expandiu-se rapidamente dos domínios visuais, pioneiramente exemplificada por modelos como Nano-banana 2 para imagens e Gemini-Omni para vídeo, para o áudio. No entanto, a infraestrutura de avaliação atual apresenta graves lacunas, permanecendo altamente fragmentada e restrita a subdomínios específicos ou operações básicas. Diferentemente dos benchmarks existentes, que têm escopo limitado, o MMAE abrange um amplo espectro de cenários do mundo real, incluindo 7 modalidades distintas de áudio — som, fala, música e suas misturas. Além disso, estabelecemos uma taxonomia abrangente que compreende 6 níveis de complexidade de tarefas, desde modificações básicas até raciocínio multi-salto e edição em múltiplas rodadas, 2 níveis de granularidade e 8 tipos distintos de operação. Meticulosamente curados por meio de colaboração humano-agente, os 2.000 exemplares de alta fidelidade do MMAE são acompanhados por uma estrutura de avaliação inovadora baseada em rubricas. Ao decompor tarefas de formato livre em 17.741 critérios verificáveis, esse paradigma robusto de rubricas possibilita uma avaliação precisa e multidimensional, tanto do seguimento de instruções quanto da consistência de contexto. Nossa extensa avaliação dos principais modelos revela que os sistemas atuais ainda estão longe de realizar edições confiáveis. Notadamente, a Taxa de Correspondência Exata (EMR) permanece consistentemente abaixo de 5% e cai para 0% absoluto em tarefas complexas de modalidades mistas, expondo gargalos críticos na execução precisa e na robustez estrutural. Esperamos que o MMAE sirva como catalisador para avanços futuros na comunidade de criação inteligente, fornecendo um roteiro de diagnóstico claro e estabelecendo um paradigma de avaliação padronizado e duradouro para a próxima geração de sistemas de edição de áudio.
English
We introduce MMAE, a Massive Multitask Audio Editing benchmark, serving as the first comprehensive evaluation testbed designed for general-purpose instruction-based audio editing. Spurred by the shift toward intelligent creation, interactive editing has rapidly expanded from visual domains, pioneered by models like Nano-banana 2 for images and Gemini-Omni for video, into audio. However, the current evaluation infrastructure lags severely, remaining highly fragmented and restricted to specific subdomains or basic operations. Unlike existing benchmarks that are limited in scope, MMAE extends to a broad spectrum of real-world scenarios, encompassing 7 distinct audio modalities, including sound, speech, music, and their mixtures. Furthermore, we establish a comprehensive taxonomy spanning 6 levels of task complexity, from basic modifications to multi-hop reasoning and multi-round editing, 2 levels of granularity, and 8 distinct operation types. Meticulously curated through human-agent collaboration, MMAE comprises 2,000 high-fidelity samples paired with a pioneering rubric-based evaluation framework. By decomposing free-form tasks into 17,741 verifiable criteria, this robust rubric-based paradigm enables a precise, multi-dimensional assessment of both instruction following and context consistency. Our extensive evaluation of leading models reveals that current systems remain far from achieving reliable edits. Strikingly, the Exact Match Rate (EMR) consistently falls below 5% and plummets to an absolute 0% in complex, mixed-modality tasks, exposing critical bottlenecks in precise execution and structural robustness. We hope MMAE will serve as a catalyst for future advances in the intelligent creation community, providing a clear diagnostic roadmap and establishing a standardized, long-lasting evaluation paradigm for next-generation audio editing systems.