AU-Harness: Een Open-Source Toolkit voor Holistische Evaluatie van Audio LLM's
AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs
September 9, 2025
Auteurs: Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan
cs.AI
Samenvatting
Grote Audio Taalmodellen (LALMs) maken snel vooruitgang, maar het evalueren ervan blijft een uitdaging door inefficiënte toolkits die een eerlijke vergelijking en systematische beoordeling beperken. Huidige frameworks kampen met drie kritieke problemen: trage verwerking die grootschalige studies vertraagt, inconsistente prompting die de reproduceerbaarheid schaadt, en beperkte taakdekking die belangrijke audio-redeneervaardigheden mist. Wij introduceren AU-Harness, een efficiënt en uitgebreid evaluatieframework voor LALMs. Ons systeem behaalt een snelheidsverbetering van tot 127% ten opzichte van bestaande toolkits door geoptimaliseerde batchverwerking en parallelle uitvoering, waardoor grootschalige evaluaties mogelijk worden die voorheen onpraktisch waren. Wij bieden gestandaardiseerde promptingprotocollen en flexibele configuraties voor een eerlijke modelvergelijking in diverse scenario's. Daarnaast introduceren we twee nieuwe evaluatiecategorieën: LLM-Adaptive Diarization voor temporeel audiobegrip en Spoken Language Reasoning voor complexe audio-gebaseerde cognitieve taken. Door evaluatie over 380+ taken onthullen we aanzienlijke tekortkomingen in huidige LALMs, met name in temporeel begrip en complexe gesproken taalredeneertaken. Onze bevindingen benadrukken ook een gebrek aan standaardisatie in instructiemodaliteit die bestaat in audiobenchmarks, wat kan leiden tot prestatieverschillen van tot 9,5 absolute punten op uitdagende complexe instructievolgende downstreamtaken. AU-Harness biedt zowel praktische evaluatietools als inzichten in modelbeperkingen, wat de systematische ontwikkeling van LALMs bevordert.
English
Large Audio Language Models (LALMs) are rapidly advancing, but evaluating
them remains challenging due to inefficient toolkits that limit fair comparison
and systematic assessment. Current frameworks suffer from three critical
issues: slow processing that bottlenecks large-scale studies, inconsistent
prompting that hurts reproducibility, and narrow task coverage that misses
important audio reasoning capabilities. We introduce AU-Harness, an efficient
and comprehensive evaluation framework for LALMs. Our system achieves a speedup
of up to 127% over existing toolkits through optimized batch processing and
parallel execution, enabling large-scale evaluations previously impractical. We
provide standardized prompting protocols and flexible configurations for fair
model comparison across diverse scenarios. Additionally, we introduce two new
evaluation categories: LLM-Adaptive Diarization for temporal audio
understanding and Spoken Language Reasoning for complex audio-based cognitive
tasks. Through evaluation across 380+ tasks, we reveal significant gaps in
current LALMs, particularly in temporal understanding and complex spoken
language reasoning tasks. Our findings also highlight a lack of standardization
in instruction modality existent across audio benchmarks, which can lead up
performance differences up to 9.5 absolute points on the challenging complex
instruction following downstream tasks. AU-Harness provides both practical
evaluation tools and insights into model limitations, advancing systematic LALM
development.