ChatPaper.aiChatPaper

AHELM : Une évaluation holistique des modèles audio-linguistiques

AHELM: A Holistic Evaluation of Audio-Language Models

August 29, 2025
papers.authors: Tony Lee, Haoqin Tu, Chi Heem Wong, Zijun Wang, Siwei Yang, Yifan Mai, Yuyin Zhou, Cihang Xie, Percy Liang
cs.AI

papers.abstract

Les évaluations des modèles audio-langage (ALMs) — des modèles multimodaux qui prennent en entrée des séquences entrelacées d'audio et de texte et produisent du texte en sortie — sont entravées par l'absence de benchmarks standardisés ; la plupart des benchmarks ne mesurent qu'une ou deux capacités et omettent des aspects évaluatifs tels que l'équité ou la sécurité. De plus, la comparaison entre les modèles est difficile car les évaluations séparées testent un nombre limité de modèles et utilisent des méthodes de prompt et des paramètres d'inférence différents. Pour pallier ces lacunes, nous introduisons AHELM, un benchmark qui agrège divers ensembles de données — incluant deux nouveaux ensembles de données audio-texte synthétiques appelés PARADE, qui évalue les ALMs sur l'évitement des stéréotypes, et CoRe-Bench, qui mesure le raisonnement sur des conversations audio via des questions-réponses multi-tours inférentielles — afin de mesurer de manière holistique la performance des ALMs sur 10 aspects que nous avons identifiés comme importants pour le développement et l'utilisation des ALMs : perception audio, connaissance, raisonnement, détection des émotions, biais, équité, multilinguisme, robustesse, toxicité et sécurité. Nous standardisons également les prompts, les paramètres d'inférence et les métriques d'évaluation pour garantir des comparaisons équitables entre les modèles. Nous testons 14 ALMs à poids ouvert et à API fermée provenant de 3 développeurs, ainsi que 3 systèmes de base simples supplémentaires, chacun composé d'un système de reconnaissance automatique de la parole et d'un modèle de langage. Nos résultats montrent que bien que Gemini 2.5 Pro se classe premier sur 5 des 10 aspects, il présente une inéquité de groupe (p=0.01) sur les tâches de reconnaissance vocale, alors que la plupart des autres modèles ne le font pas. Nous constatons également que les systèmes de base performent raisonnablement bien sur AHELM, l'un d'entre eux se classant 5e au classement général malgré des capacités limitées à la conversion parole-texte. Pour plus de transparence, tous les prompts bruts, les générations de modèles et les sorties sont disponibles sur notre site web à l'adresse https://crfm.stanford.edu/helm/audio/v1.0.0. AHELM est conçu pour être un benchmark évolutif, et de nouveaux ensembles de données et modèles seront ajoutés au fil du temps.
English
Evaluations of audio-language models (ALMs) -- multimodal models that take interleaved audio and text as input and output text -- are hindered by the lack of standardized benchmarks; most benchmarks measure only one or two capabilities and omit evaluative aspects such as fairness or safety. Furthermore, comparison across models is difficult as separate evaluations test a limited number of models and use different prompting methods and inference parameters. To address these shortfalls, we introduce AHELM, a benchmark that aggregates various datasets -- including 2 new synthetic audio-text datasets called PARADE, which evaluates the ALMs on avoiding stereotypes, and CoRe-Bench, which measures reasoning over conversational audio through inferential multi-turn question answering -- to holistically measure the performance of ALMs across 10 aspects we have identified as important to the development and usage of ALMs: audio perception, knowledge, reasoning, emotion detection, bias, fairness, multilinguality, robustness, toxicity, and safety. We also standardize the prompts, inference parameters, and evaluation metrics to ensure equitable comparisons across models. We test 14 open-weight and closed-API ALMs from 3 developers and 3 additional simple baseline systems each consisting of an automatic speech recognizer and a language model. Our results show that while Gemini 2.5 Pro ranks top in 5 out of 10 aspects, it exhibits group unfairness (p=0.01) on ASR tasks whereas most of the other models do not. We also find that the baseline systems perform reasonably well on AHELM, with one ranking 5th overall despite having only speech-to-text capabilities. For transparency, all raw prompts, model generations, and outputs are available on our website at https://crfm.stanford.edu/helm/audio/v1.0.0. AHELM is intended to be a living benchmark and new datasets and models will be added over time.
PDF93September 1, 2025