AU-Harness: Ein Open-Source-Toolkit zur ganzheitlichen Bewertung von Audio-LLMs
AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs
September 9, 2025
papers.authors: Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan
cs.AI
papers.abstract
Große Audio-Sprachmodelle (Large Audio Language Models, LALMs) entwickeln sich rasant, doch ihre Bewertung bleibt aufgrund ineffizienter Toolkits, die einen fairen Vergleich und eine systematische Beurteilung einschränken, eine Herausforderung. Aktuelle Frameworks leiden unter drei kritischen Problemen: langsamer Verarbeitung, die groß angelegte Studien behindert, inkonsistenter Prompt-Gestaltung, die die Reproduzierbarkeit beeinträchtigt, und begrenzter Aufgabenabdeckung, die wichtige Fähigkeiten zur Audio-Analyse vernachlässigt. Wir stellen AU-Harness vor, ein effizientes und umfassendes Bewertungsframework für LALMs. Unser System erreicht eine Beschleunigung von bis zu 127 % gegenüber bestehenden Toolkits durch optimierte Batch-Verarbeitung und parallele Ausführung, was bisher unpraktikable groß angelegte Bewertungen ermöglicht. Wir bieten standardisierte Prompt-Protokolle und flexible Konfigurationen für einen fairen Modellvergleich in verschiedenen Szenarien. Zusätzlich führen wir zwei neue Bewertungskategorien ein: LLM-Adaptive Diarisierung für das zeitliche Audio-Verständnis und gesprochene Sprachlogik für komplexe audio-basierte kognitive Aufgaben. Durch die Bewertung von über 380 Aufgaben zeigen wir erhebliche Lücken in aktuellen LALMs auf, insbesondere im zeitlichen Verständnis und bei komplexen gesprochenen Sprachlogik-Aufgaben. Unsere Ergebnisse verdeutlichen auch einen Mangel an Standardisierung in der Instruktionsmodalität, der in Audio-Benchmarks vorhanden ist und zu Leistungsunterschieden von bis zu 9,5 absoluten Punkten bei anspruchsvollen komplexen Instruktionsfolge-Aufgaben führen kann. AU-Harness bietet sowohl praktische Bewertungswerkzeuge als auch Einblicke in Modellgrenzen und fördert so die systematische Entwicklung von LALMs.
English
Large Audio Language Models (LALMs) are rapidly advancing, but evaluating
them remains challenging due to inefficient toolkits that limit fair comparison
and systematic assessment. Current frameworks suffer from three critical
issues: slow processing that bottlenecks large-scale studies, inconsistent
prompting that hurts reproducibility, and narrow task coverage that misses
important audio reasoning capabilities. We introduce AU-Harness, an efficient
and comprehensive evaluation framework for LALMs. Our system achieves a speedup
of up to 127% over existing toolkits through optimized batch processing and
parallel execution, enabling large-scale evaluations previously impractical. We
provide standardized prompting protocols and flexible configurations for fair
model comparison across diverse scenarios. Additionally, we introduce two new
evaluation categories: LLM-Adaptive Diarization for temporal audio
understanding and Spoken Language Reasoning for complex audio-based cognitive
tasks. Through evaluation across 380+ tasks, we reveal significant gaps in
current LALMs, particularly in temporal understanding and complex spoken
language reasoning tasks. Our findings also highlight a lack of standardization
in instruction modality existent across audio benchmarks, which can lead up
performance differences up to 9.5 absolute points on the challenging complex
instruction following downstream tasks. AU-Harness provides both practical
evaluation tools and insights into model limitations, advancing systematic LALM
development.