MAEB: Benchmark für massive Audio-Einbettungen

Zusammenfassung

Wir stellen den Massive Audio Embedding Benchmark (MAEB) vor, einen umfassenden Benchmark, der 30 Aufgaben in den Bereichen Sprache, Musik, Umgebungsgeräusche und cross-modale Audio-Text-Reasoning in über 100 Sprachen abdeckt. Wir evaluieren mehr als 50 Modelle und stellen fest, dass kein einzelnes Modell alle Aufgaben dominiert: Kontrastive Audio-Text-Modelle glänzen bei der Klassifizierung von Umgebungsgeräuschen (z.B. ESC50), erzielen aber nahezu Zufallstreffer bei multilingualen Sprachaufgaben (z.B. SIB-FLEURS), während sprachvor-trainierte Modelle das entgegengesetzte Muster zeigen. Clustering bleibt für alle Modelle herausfordernd, wobei selbst das leistungsstärkste Modell nur bescheidene Ergebnisse erzielt. Wir beobachten, dass Modelle, die bei akustischem Verständnis exzellieren, häufig bei linguistischen Aufgaben schlecht abschneiden und umgekehrt. Wir zeigen auch, dass die Leistung von Audio-Encodern auf MAEB stark mit ihrer Leistung in Audio-Large-Language-Modellen korreliert. MAEB leitet sich von MAEB+ ab, einer Sammlung von 98 Aufgaben. MAEB ist darauf ausgelegt, die Aufgabenvielfalt bei gleichzeitiger Reduzierung der Evaluierungskosten zu erhalten, und integriert sich in das MTEB-Ökosystem für eine vereinheitlichte Evaluierung über Text-, Bild- und Audiomodalitäten hinweg. Wir veröffentlichen MAEB und alle 98 Aufgaben zusammen mit Code und einer Bestenliste unter https://github.com/embeddings-benchmark/mteb.

English

We introduce the Massive Audio Embedding Benchmark (MAEB), a large-scale benchmark covering 30 tasks across speech, music, environmental sounds, and cross-modal audio-text reasoning in 100+ languages. We evaluate 50+ models and find that no single model dominates across all tasks: contrastive audio-text models excel at environmental sound classification (e.g., ESC50) but score near random on multilingual speech tasks (e.g., SIB-FLEURS), while speech-pretrained models show the opposite pattern. Clustering remains challenging for all models, with even the best-performing model achieving only modest results. We observe that models excelling on acoustic understanding often perform poorly on linguistic tasks, and vice versa. We also show that the performance of audio encoders on MAEB correlates highly with their performance when used in audio large language models. MAEB is derived from MAEB+, a collection of 98 tasks. MAEB is designed to maintain task diversity while reducing evaluation cost, and it integrates into the MTEB ecosystem for unified evaluation across text, image, and audio modalities. We release MAEB and all 98 tasks along with code and a leaderboard at https://github.com/embeddings-benchmark/mteb.

MAEB: Benchmark für massive Audio-Einbettungen

MAEB: Massive Audio Embedding Benchmark

Zusammenfassung

Support