AU-Harness: Ein Open-Source-Toolkit zur ganzheitlichen Bewertung von Audio-LLMs

papers.abstract

Große Audio-Sprachmodelle (Large Audio Language Models, LALMs) entwickeln sich rasant, doch ihre Bewertung bleibt aufgrund ineffizienter Toolkits, die einen fairen Vergleich und eine systematische Beurteilung einschränken, eine Herausforderung. Aktuelle Frameworks leiden unter drei kritischen Problemen: langsamer Verarbeitung, die groß angelegte Studien behindert, inkonsistenter Prompt-Gestaltung, die die Reproduzierbarkeit beeinträchtigt, und begrenzter Aufgabenabdeckung, die wichtige Fähigkeiten zur Audio-Analyse vernachlässigt. Wir stellen AU-Harness vor, ein effizientes und umfassendes Bewertungsframework für LALMs. Unser System erreicht eine Beschleunigung von bis zu 127 % gegenüber bestehenden Toolkits durch optimierte Batch-Verarbeitung und parallele Ausführung, was bisher unpraktikable groß angelegte Bewertungen ermöglicht. Wir bieten standardisierte Prompt-Protokolle und flexible Konfigurationen für einen fairen Modellvergleich in verschiedenen Szenarien. Zusätzlich führen wir zwei neue Bewertungskategorien ein: LLM-Adaptive Diarisierung für das zeitliche Audio-Verständnis und gesprochene Sprachlogik für komplexe audio-basierte kognitive Aufgaben. Durch die Bewertung von über 380 Aufgaben zeigen wir erhebliche Lücken in aktuellen LALMs auf, insbesondere im zeitlichen Verständnis und bei komplexen gesprochenen Sprachlogik-Aufgaben. Unsere Ergebnisse verdeutlichen auch einen Mangel an Standardisierung in der Instruktionsmodalität, der in Audio-Benchmarks vorhanden ist und zu Leistungsunterschieden von bis zu 9,5 absoluten Punkten bei anspruchsvollen komplexen Instruktionsfolge-Aufgaben führen kann. AU-Harness bietet sowohl praktische Bewertungswerkzeuge als auch Einblicke in Modellgrenzen und fördert so die systematische Entwicklung von LALMs.

English

Large Audio Language Models (LALMs) are rapidly advancing, but evaluating them remains challenging due to inefficient toolkits that limit fair comparison and systematic assessment. Current frameworks suffer from three critical issues: slow processing that bottlenecks large-scale studies, inconsistent prompting that hurts reproducibility, and narrow task coverage that misses important audio reasoning capabilities. We introduce AU-Harness, an efficient and comprehensive evaluation framework for LALMs. Our system achieves a speedup of up to 127% over existing toolkits through optimized batch processing and parallel execution, enabling large-scale evaluations previously impractical. We provide standardized prompting protocols and flexible configurations for fair model comparison across diverse scenarios. Additionally, we introduce two new evaluation categories: LLM-Adaptive Diarization for temporal audio understanding and Spoken Language Reasoning for complex audio-based cognitive tasks. Through evaluation across 380+ tasks, we reveal significant gaps in current LALMs, particularly in temporal understanding and complex spoken language reasoning tasks. Our findings also highlight a lack of standardization in instruction modality existent across audio benchmarks, which can lead up performance differences up to 9.5 absolute points on the challenging complex instruction following downstream tasks. AU-Harness provides both practical evaluation tools and insights into model limitations, advancing systematic LALM development.

AU-Harness: Ein Open-Source-Toolkit zur ganzheitlichen Bewertung von Audio-LLMs

AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs

papers.abstract

Support