MAEB : Référentiel Massif d'Intégration Audio

Résumé

Nous présentons le Massive Audio Embedding Benchmark (MAEB), un benchmark à grande échelle couvrant 30 tâches dans les domaines de la parole, de la musique, des sons environnementaux et du raisonnement audio-texte multimodal, dans plus de 100 langues. Nous évaluons plus de 50 modèles et constatons qu'aucun modèle unique ne domine l'ensemble des tâches : les modèles contrastifs audio-texte excellent en classification des sons environnementaux (par exemple, ESC50) mais obtiennent des scores proches du hasard sur les tâches de parole multilingue (par exemple, SIB-FLEURS), tandis que les modèles pré-entraînés sur la parole montrent le schéma inverse. Le clustering reste difficile pour tous les modèles, le meilleur modèle n'atteignant que des résultats modestes. Nous observons que les modèles performants en compréhension acoustique obtiennent souvent de mauvais résultats sur les tâches linguistiques, et vice versa. Nous montrons également que les performances des encodeurs audio sur MAEB sont fortement corrélées avec leurs performances lorsqu'ils sont utilisés dans les grands modèles linguistiques audio. MAEB est dérivé de MAEB+, une collection de 98 tâches. MAEB est conçu pour maintenir la diversité des tâches tout en réduisant les coûts d'évaluation, et il s'intègre à l'écosystème MTEB pour une évaluation unifiée des modalités texte, image et audio. Nous publions MAEB et l'ensemble des 98 tâches, ainsi que le code et un classement, à l'adresse https://github.com/embeddings-benchmark/mteb.

English

We introduce the Massive Audio Embedding Benchmark (MAEB), a large-scale benchmark covering 30 tasks across speech, music, environmental sounds, and cross-modal audio-text reasoning in 100+ languages. We evaluate 50+ models and find that no single model dominates across all tasks: contrastive audio-text models excel at environmental sound classification (e.g., ESC50) but score near random on multilingual speech tasks (e.g., SIB-FLEURS), while speech-pretrained models show the opposite pattern. Clustering remains challenging for all models, with even the best-performing model achieving only modest results. We observe that models excelling on acoustic understanding often perform poorly on linguistic tasks, and vice versa. We also show that the performance of audio encoders on MAEB correlates highly with their performance when used in audio large language models. MAEB is derived from MAEB+, a collection of 98 tasks. MAEB is designed to maintain task diversity while reducing evaluation cost, and it integrates into the MTEB ecosystem for unified evaluation across text, image, and audio modalities. We release MAEB and all 98 tasks along with code and a leaderboard at https://github.com/embeddings-benchmark/mteb.

MAEB : Référentiel Massif d'Intégration Audio

MAEB: Massive Audio Embedding Benchmark

Résumé

Support