ChatPaper.aiChatPaper

AHELM: Una Valutazione Olistica dei Modelli Audio-Linguistici

AHELM: A Holistic Evaluation of Audio-Language Models

August 29, 2025
Autori: Tony Lee, Haoqin Tu, Chi Heem Wong, Zijun Wang, Siwei Yang, Yifan Mai, Yuyin Zhou, Cihang Xie, Percy Liang
cs.AI

Abstract

Le valutazioni dei modelli audio-linguistici (ALM) — modelli multimodali che ricevono in input audio e testo intervallati e producono testo in output — sono ostacolate dalla mancanza di benchmark standardizzati; la maggior parte dei benchmark misura solo una o due capacità e tralascia aspetti valutativi come l'equità o la sicurezza. Inoltre, il confronto tra i modelli è difficile poiché valutazioni separate testano un numero limitato di modelli e utilizzano metodi di prompt e parametri di inferenza diversi. Per affrontare queste carenze, introduciamo AHELM, un benchmark che aggrega vari dataset — inclusi due nuovi dataset sintetici audio-testo chiamati PARADE, che valuta gli ALM nell'evitare stereotipi, e CoRe-Bench, che misura il ragionamento su audio conversazionale attraverso risposte a domande multi-turn inferenziali — per misurare in modo olistico le prestazioni degli ALM su 10 aspetti che abbiamo identificato come importanti per lo sviluppo e l'utilizzo degli ALM: percezione audio, conoscenza, ragionamento, rilevamento delle emozioni, bias, equità, multilinguità, robustezza, tossicità e sicurezza. Standardizziamo inoltre i prompt, i parametri di inferenza e le metriche di valutazione per garantire confronti equi tra i modelli. Testiamo 14 ALM open-weight e closed-API di 3 sviluppatori e 3 ulteriori sistemi di baseline semplici, ciascuno composto da un riconoscitore vocale automatico e un modello linguistico. I nostri risultati mostrano che, sebbene Gemini 2.5 Pro si posizioni al primo posto in 5 dei 10 aspetti, presenta un'ingiustizia di gruppo (p=0.01) nei task di ASR, mentre la maggior parte degli altri modelli no. Troviamo inoltre che i sistemi di baseline performano ragionevolmente bene su AHELM, con uno che si classifica al 5° posto nonostante abbia solo capacità di conversione da voce a testo. Per trasparenza, tutti i prompt grezzi, le generazioni dei modelli e gli output sono disponibili sul nostro sito web all'indirizzo https://crfm.stanford.edu/helm/audio/v1.0.0. AHELM è concepito come un benchmark in evoluzione, e nuovi dataset e modelli verranno aggiunti nel tempo.
English
Evaluations of audio-language models (ALMs) -- multimodal models that take interleaved audio and text as input and output text -- are hindered by the lack of standardized benchmarks; most benchmarks measure only one or two capabilities and omit evaluative aspects such as fairness or safety. Furthermore, comparison across models is difficult as separate evaluations test a limited number of models and use different prompting methods and inference parameters. To address these shortfalls, we introduce AHELM, a benchmark that aggregates various datasets -- including 2 new synthetic audio-text datasets called PARADE, which evaluates the ALMs on avoiding stereotypes, and CoRe-Bench, which measures reasoning over conversational audio through inferential multi-turn question answering -- to holistically measure the performance of ALMs across 10 aspects we have identified as important to the development and usage of ALMs: audio perception, knowledge, reasoning, emotion detection, bias, fairness, multilinguality, robustness, toxicity, and safety. We also standardize the prompts, inference parameters, and evaluation metrics to ensure equitable comparisons across models. We test 14 open-weight and closed-API ALMs from 3 developers and 3 additional simple baseline systems each consisting of an automatic speech recognizer and a language model. Our results show that while Gemini 2.5 Pro ranks top in 5 out of 10 aspects, it exhibits group unfairness (p=0.01) on ASR tasks whereas most of the other models do not. We also find that the baseline systems perform reasonably well on AHELM, with one ranking 5th overall despite having only speech-to-text capabilities. For transparency, all raw prompts, model generations, and outputs are available on our website at https://crfm.stanford.edu/helm/audio/v1.0.0. AHELM is intended to be a living benchmark and new datasets and models will be added over time.
PDF93September 1, 2025