AHELM: Uma Avaliação Holística de Modelos de Áudio-Linguagem

Resumo

A avaliação de modelos de áudio-linguagem (ALMs) — modelos multimodais que recebem entradas intercaladas de áudio e texto e produzem texto como saída — é dificultada pela falta de benchmarks padronizados; a maioria dos benchmarks mede apenas uma ou duas capacidades e omite aspectos avaliativos como justiça ou segurança. Além disso, a comparação entre modelos é complicada, pois avaliações separadas testam um número limitado de modelos e utilizam métodos de prompt e parâmetros de inferência diferentes. Para abordar essas deficiências, introduzimos o AHELM, um benchmark que agrega diversos conjuntos de dados — incluindo dois novos conjuntos de dados sintéticos de áudio-texto chamados PARADE, que avalia os ALMs na prevenção de estereótipos, e CoRe-Bench, que mede o raciocínio sobre áudio conversacional por meio de perguntas e respostas multi-turn inferenciais — para medir holisticamente o desempenho dos ALMs em 10 aspectos que identificamos como importantes para o desenvolvimento e uso desses modelos: percepção de áudio, conhecimento, raciocínio, detecção de emoções, viés, justiça, multilinguismo, robustez, toxicidade e segurança. Também padronizamos os prompts, parâmetros de inferência e métricas de avaliação para garantir comparações equitativas entre modelos. Testamos 14 ALMs de código aberto e APIs fechadas de 3 desenvolvedores, além de 3 sistemas de linha de base simples, cada um consistindo de um reconhecedor automático de fala e um modelo de linguagem. Nossos resultados mostram que, embora o Gemini 2.5 Pro ocupe o primeiro lugar em 5 dos 10 aspectos, ele exibe injustiça de grupo (p=0,01) em tarefas de ASR, enquanto a maioria dos outros modelos não. Também observamos que os sistemas de linha de base têm um desempenho razoavelmente bom no AHELM, com um deles ocupando a 5ª posição geral, apesar de ter apenas capacidades de conversão de fala em texto. Para transparência, todos os prompts brutos, gerações de modelos e saídas estão disponíveis em nosso site em https://crfm.stanford.edu/helm/audio/v1.0.0. O AHELM pretende ser um benchmark dinâmico, e novos conjuntos de dados e modelos serão adicionados ao longo do tempo.

English

Evaluations of audio-language models (ALMs) -- multimodal models that take interleaved audio and text as input and output text -- are hindered by the lack of standardized benchmarks; most benchmarks measure only one or two capabilities and omit evaluative aspects such as fairness or safety. Furthermore, comparison across models is difficult as separate evaluations test a limited number of models and use different prompting methods and inference parameters. To address these shortfalls, we introduce AHELM, a benchmark that aggregates various datasets -- including 2 new synthetic audio-text datasets called PARADE, which evaluates the ALMs on avoiding stereotypes, and CoRe-Bench, which measures reasoning over conversational audio through inferential multi-turn question answering -- to holistically measure the performance of ALMs across 10 aspects we have identified as important to the development and usage of ALMs: audio perception, knowledge, reasoning, emotion detection, bias, fairness, multilinguality, robustness, toxicity, and safety. We also standardize the prompts, inference parameters, and evaluation metrics to ensure equitable comparisons across models. We test 14 open-weight and closed-API ALMs from 3 developers and 3 additional simple baseline systems each consisting of an automatic speech recognizer and a language model. Our results show that while Gemini 2.5 Pro ranks top in 5 out of 10 aspects, it exhibits group unfairness (p=0.01) on ASR tasks whereas most of the other models do not. We also find that the baseline systems perform reasonably well on AHELM, with one ranking 5th overall despite having only speech-to-text capabilities. For transparency, all raw prompts, model generations, and outputs are available on our website at https://crfm.stanford.edu/helm/audio/v1.0.0. AHELM is intended to be a living benchmark and new datasets and models will be added over time.

AHELM: Uma Avaliação Holística de Modelos de Áudio-Linguagem

AHELM: A Holistic Evaluation of Audio-Language Models

Resumo

Support