AU-Harness: Un Toolkit Open-Source per la Valutazione Olistica di Modelli Linguistici Audio
AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs
September 9, 2025
Autori: Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan
cs.AI
Abstract
I Large Audio Language Model (LALM) stanno progredendo rapidamente, ma la loro valutazione rimane una sfida a causa di toolkit inefficienti che limitano confronti equi e valutazioni sistematiche. Gli attuali framework presentano tre problemi critici: una lenta elaborazione che ostacola studi su larga scala, prompt inconsistenti che compromettono la riproducibilità e una copertura ristretta delle attività che trascura importanti capacità di ragionamento audio. Introduciamo AU-Harness, un framework di valutazione efficiente e completo per i LALM. Il nostro sistema raggiunge un'accelerazione fino al 127% rispetto ai toolkit esistenti grazie a un'elaborazione in batch ottimizzata e un'esecuzione parallela, rendendo possibili valutazioni su larga scala precedentemente impraticabili. Forniamo protocolli di prompt standardizzati e configurazioni flessibili per un confronto equo dei modelli in diversi scenari. Inoltre, introduciamo due nuove categorie di valutazione: Diarizzazione Adattiva per LLM per la comprensione temporale dell'audio e Ragionamento sul Linguaggio Parlato per compiti cognitivi complessi basati sull'audio. Attraverso la valutazione di oltre 380 attività, riveliamo significative lacune negli attuali LALM, in particolare nella comprensione temporale e nei compiti complessi di ragionamento sul linguaggio parlato. Le nostre scoperte evidenziano anche una mancanza di standardizzazione nella modalità di istruzione presente nei benchmark audio, che può portare a differenze di prestazioni fino a 9,5 punti assoluti nei compiti complessi di seguimento delle istruzioni downstream. AU-Harness fornisce sia strumenti pratici di valutazione che approfondimenti sui limiti dei modelli, promuovendo uno sviluppo sistematico dei LALM.
English
Large Audio Language Models (LALMs) are rapidly advancing, but evaluating
them remains challenging due to inefficient toolkits that limit fair comparison
and systematic assessment. Current frameworks suffer from three critical
issues: slow processing that bottlenecks large-scale studies, inconsistent
prompting that hurts reproducibility, and narrow task coverage that misses
important audio reasoning capabilities. We introduce AU-Harness, an efficient
and comprehensive evaluation framework for LALMs. Our system achieves a speedup
of up to 127% over existing toolkits through optimized batch processing and
parallel execution, enabling large-scale evaluations previously impractical. We
provide standardized prompting protocols and flexible configurations for fair
model comparison across diverse scenarios. Additionally, we introduce two new
evaluation categories: LLM-Adaptive Diarization for temporal audio
understanding and Spoken Language Reasoning for complex audio-based cognitive
tasks. Through evaluation across 380+ tasks, we reveal significant gaps in
current LALMs, particularly in temporal understanding and complex spoken
language reasoning tasks. Our findings also highlight a lack of standardization
in instruction modality existent across audio benchmarks, which can lead up
performance differences up to 9.5 absolute points on the challenging complex
instruction following downstream tasks. AU-Harness provides both practical
evaluation tools and insights into model limitations, advancing systematic LALM
development.