AHELM: Uma Avaliação Holística de Modelos de Áudio-Linguagem
AHELM: A Holistic Evaluation of Audio-Language Models
August 29, 2025
Autores: Tony Lee, Haoqin Tu, Chi Heem Wong, Zijun Wang, Siwei Yang, Yifan Mai, Yuyin Zhou, Cihang Xie, Percy Liang
cs.AI
Resumo
A avaliação de modelos de áudio-linguagem (ALMs) — modelos multimodais que recebem entradas intercaladas de áudio e texto e produzem texto como saída — é dificultada pela falta de benchmarks padronizados; a maioria dos benchmarks mede apenas uma ou duas capacidades e omite aspectos avaliativos como justiça ou segurança. Além disso, a comparação entre modelos é complicada, pois avaliações separadas testam um número limitado de modelos e utilizam métodos de prompt e parâmetros de inferência diferentes. Para abordar essas deficiências, introduzimos o AHELM, um benchmark que agrega diversos conjuntos de dados — incluindo dois novos conjuntos de dados sintéticos de áudio-texto chamados PARADE, que avalia os ALMs na prevenção de estereótipos, e CoRe-Bench, que mede o raciocínio sobre áudio conversacional por meio de perguntas e respostas multi-turn inferenciais — para medir holisticamente o desempenho dos ALMs em 10 aspectos que identificamos como importantes para o desenvolvimento e uso desses modelos: percepção de áudio, conhecimento, raciocínio, detecção de emoções, viés, justiça, multilinguismo, robustez, toxicidade e segurança. Também padronizamos os prompts, parâmetros de inferência e métricas de avaliação para garantir comparações equitativas entre modelos. Testamos 14 ALMs de código aberto e APIs fechadas de 3 desenvolvedores, além de 3 sistemas de linha de base simples, cada um consistindo de um reconhecedor automático de fala e um modelo de linguagem. Nossos resultados mostram que, embora o Gemini 2.5 Pro ocupe o primeiro lugar em 5 dos 10 aspectos, ele exibe injustiça de grupo (p=0,01) em tarefas de ASR, enquanto a maioria dos outros modelos não. Também observamos que os sistemas de linha de base têm um desempenho razoavelmente bom no AHELM, com um deles ocupando a 5ª posição geral, apesar de ter apenas capacidades de conversão de fala em texto. Para transparência, todos os prompts brutos, gerações de modelos e saídas estão disponíveis em nosso site em https://crfm.stanford.edu/helm/audio/v1.0.0. O AHELM pretende ser um benchmark dinâmico, e novos conjuntos de dados e modelos serão adicionados ao longo do tempo.
English
Evaluations of audio-language models (ALMs) -- multimodal models that take
interleaved audio and text as input and output text -- are hindered by the lack
of standardized benchmarks; most benchmarks measure only one or two
capabilities and omit evaluative aspects such as fairness or safety.
Furthermore, comparison across models is difficult as separate evaluations test
a limited number of models and use different prompting methods and inference
parameters. To address these shortfalls, we introduce AHELM, a benchmark that
aggregates various datasets -- including 2 new synthetic audio-text datasets
called PARADE, which evaluates the ALMs on avoiding stereotypes, and
CoRe-Bench, which measures reasoning over conversational audio through
inferential multi-turn question answering -- to holistically measure the
performance of ALMs across 10 aspects we have identified as important to the
development and usage of ALMs: audio perception, knowledge, reasoning, emotion
detection, bias, fairness, multilinguality, robustness, toxicity, and safety.
We also standardize the prompts, inference parameters, and evaluation metrics
to ensure equitable comparisons across models. We test 14 open-weight and
closed-API ALMs from 3 developers and 3 additional simple baseline systems each
consisting of an automatic speech recognizer and a language model. Our results
show that while Gemini 2.5 Pro ranks top in 5 out of 10 aspects, it exhibits
group unfairness (p=0.01) on ASR tasks whereas most of the other models do
not. We also find that the baseline systems perform reasonably well on AHELM,
with one ranking 5th overall despite having only speech-to-text capabilities.
For transparency, all raw prompts, model generations, and outputs are available
on our website at https://crfm.stanford.edu/helm/audio/v1.0.0. AHELM is
intended to be a living benchmark and new datasets and models will be added
over time.