MAEB: Benchmark de Embedding de Áudio em Massa

Resumo

Apresentamos o Massive Audio Embedding Benchmark (MAEB), um benchmark de larga escala que abrange 30 tarefas em áreas como fala, música, sons ambientais e raciocínio áudio-texto multimodal em mais de 100 idiomas. Avaliamos mais de 50 modelos e constatamos que nenhum modelo único domina todas as tarefas: modelos contrastivos de áudio-texto destacam-se na classificação de sons ambientais (por exemplo, ESC50), mas obtêm pontuações próximas ao acaso em tarefas de fala multilingue (por exemplo, SIB-FLEURS), enquanto modelos pré-treinados em fala mostram o padrão oposto. A tarefa de *clustering* permanece desafiadora para todos os modelos, com mesmo o melhor desempenho alcançando apenas resultados modestos. Observamos que modelos com excelente desempenho em compreensão acústica frequentemente têm desempenho fraco em tarefas linguísticas, e vice-versa. Também demonstramos que o desempenho de codificadores de áudio no MAEB correlaciona-se fortemente com seu desempenho quando utilizados em modelos de linguagem de grande escala para áudio. O MAEB é derivado do MAEB+, uma coleção de 98 tarefas. O MAEB foi concebido para manter a diversidade de tarefas enquanto reduz o custo de avaliação, e integra-se no ecossistema MTEB para avaliação unificada entre as modalidades texto, imagem e áudio. Disponibilizamos o MAEB e todas as 98 tarefas, juntamente com código e um *leaderboard*, em https://github.com/embeddings-benchmark/mteb.

English

We introduce the Massive Audio Embedding Benchmark (MAEB), a large-scale benchmark covering 30 tasks across speech, music, environmental sounds, and cross-modal audio-text reasoning in 100+ languages. We evaluate 50+ models and find that no single model dominates across all tasks: contrastive audio-text models excel at environmental sound classification (e.g., ESC50) but score near random on multilingual speech tasks (e.g., SIB-FLEURS), while speech-pretrained models show the opposite pattern. Clustering remains challenging for all models, with even the best-performing model achieving only modest results. We observe that models excelling on acoustic understanding often perform poorly on linguistic tasks, and vice versa. We also show that the performance of audio encoders on MAEB correlates highly with their performance when used in audio large language models. MAEB is derived from MAEB+, a collection of 98 tasks. MAEB is designed to maintain task diversity while reducing evaluation cost, and it integrates into the MTEB ecosystem for unified evaluation across text, image, and audio modalities. We release MAEB and all 98 tasks along with code and a leaderboard at https://github.com/embeddings-benchmark/mteb.