MMAE: Ein massives Multitask-Audio-Editierungs-Benchmark

Zusammenfassung

Wir stellen MMAE vor, einen Massive Multitask Audio Editing Benchmark, der als erste umfassende Evaluierungstestumgebung für allgemeines, instruktionsbasiertes Audio-Editieren dient. Angetrieben durch den Wandel hin zur intelligenten Kreation hat sich das interaktive Editieren schnell von visuellen Domänen – vorangetrieben durch Modelle wie Nano-banana 2 für Bilder und Gemini-Omni für Video – auf Audio ausgeweitet. Allerdings hinkt die derzeitige Evaluierungsinfrastruktur stark hinterher, bleibt stark fragmentiert und auf spezifische Unterdomänen oder grundlegende Operationen beschränkt. Im Gegensatz zu bestehenden Benchmarks, die in ihrem Umfang begrenzt sind, erstreckt sich MMAE auf ein breites Spektrum realer Szenarien und umfasst 7 verschiedene Audiomodalitäten, darunter Geräusch, Sprache, Musik und deren Mischungen. Darüber hinaus etablieren wir eine umfassende Taxonomie, die 6 Stufen der Aufgabenkomplexität umfasst – von grundlegenden Modifikationen bis hin zu Multi-Hop-Schlussfolgerungen und mehrrundigem Editieren –, 2 Granularitätsstufen und 8 verschiedene Operationstypen. Sorgfältig kuratiert durch Mensch-Agent-Kollaboration, umfasst MMAE 2.000 hochgetreue Proben, gepaart mit einem bahnbrechenden rubrikenbasierten Evaluierungsrahmenwerk. Durch die Zerlegung von Freiformaufgaben in 17.741 überprüfbare Kriterien ermöglicht dieses robuste rubrikenbasierte Paradigma eine präzise, mehrdimensionale Bewertung sowohl der Befolgung von Anweisungen als auch der Kontextkonsistenz. Unsere umfassende Evaluierung führender Modelle zeigt, dass aktuelle Systeme noch weit von zuverlässigen Bearbeitungen entfernt sind. Bemerkenswerterweise liegt die Exakte-Übereinstimmungsrate (EMR) konstant unter 5 % und fällt bei komplexen, gemischtmodalen Aufgaben auf absolute 0 %, was kritische Engpässe bei der präzisen Ausführung und strukturellen Robustheit offenbart. Wir hoffen, dass MMAE als Katalysator für zukünftige Fortschritte in der Community der intelligenten Kreation dient, eine klare diagnostische Roadmap bereitstellt und ein standardisiertes, dauerhaftes Evaluierungsparadigma für Audio-Editierungssysteme der nächsten Generation etabliert.

English

We introduce MMAE, a Massive Multitask Audio Editing benchmark, serving as the first comprehensive evaluation testbed designed for general-purpose instruction-based audio editing. Spurred by the shift toward intelligent creation, interactive editing has rapidly expanded from visual domains, pioneered by models like Nano-banana 2 for images and Gemini-Omni for video, into audio. However, the current evaluation infrastructure lags severely, remaining highly fragmented and restricted to specific subdomains or basic operations. Unlike existing benchmarks that are limited in scope, MMAE extends to a broad spectrum of real-world scenarios, encompassing 7 distinct audio modalities, including sound, speech, music, and their mixtures. Furthermore, we establish a comprehensive taxonomy spanning 6 levels of task complexity, from basic modifications to multi-hop reasoning and multi-round editing, 2 levels of granularity, and 8 distinct operation types. Meticulously curated through human-agent collaboration, MMAE comprises 2,000 high-fidelity samples paired with a pioneering rubric-based evaluation framework. By decomposing free-form tasks into 17,741 verifiable criteria, this robust rubric-based paradigm enables a precise, multi-dimensional assessment of both instruction following and context consistency. Our extensive evaluation of leading models reveals that current systems remain far from achieving reliable edits. Strikingly, the Exact Match Rate (EMR) consistently falls below 5% and plummets to an absolute 0% in complex, mixed-modality tasks, exposing critical bottlenecks in precise execution and structural robustness. We hope MMAE will serve as a catalyst for future advances in the intelligent creation community, providing a clear diagnostic roadmap and establishing a standardized, long-lasting evaluation paradigm for next-generation audio editing systems.