AU-Harness : Une boîte à outils open-source pour l'évaluation holistique des modèles de langage audio
AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs
September 9, 2025
papers.authors: Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan
cs.AI
papers.abstract
Les modèles de langage audio de grande envergure (LALMs) progressent rapidement, mais leur évaluation reste un défi en raison de boîtes à outils inefficaces qui limitent les comparaisons équitables et les évaluations systématiques. Les cadres actuels souffrent de trois problèmes critiques : un traitement lent qui freine les études à grande échelle, des incitations incohérentes qui nuisent à la reproductibilité, et une couverture étroite des tâches qui néglige des capacités importantes de raisonnement audio. Nous présentons AU-Harness, un cadre d'évaluation efficace et complet pour les LALMs. Notre système atteint une accélération allant jusqu'à 127 % par rapport aux boîtes à outils existantes grâce à un traitement par lots optimisé et une exécution parallèle, permettant des évaluations à grande échelle auparavant impraticables. Nous proposons des protocoles d'incitation standardisés et des configurations flexibles pour des comparaisons équitables de modèles dans divers scénarios. De plus, nous introduisons deux nouvelles catégories d'évaluation : la Diarisation Adaptative LLM pour la compréhension temporelle audio et le Raisonnement en Langage Parlé pour les tâches cognitives complexes basées sur l'audio. À travers l'évaluation de plus de 380 tâches, nous révélons des lacunes significatives dans les LALMs actuels, notamment dans la compréhension temporelle et les tâches complexes de raisonnement en langage parlé. Nos résultats mettent également en lumière un manque de standardisation dans la modalité d'instruction existant dans les benchmarks audio, ce qui peut entraîner des différences de performance allant jusqu'à 9,5 points absolus sur les tâches complexes de suivi d'instructions en aval. AU-Harness fournit à la fois des outils d'évaluation pratiques et des insights sur les limites des modèles, faisant progresser le développement systématique des LALMs.
English
Large Audio Language Models (LALMs) are rapidly advancing, but evaluating
them remains challenging due to inefficient toolkits that limit fair comparison
and systematic assessment. Current frameworks suffer from three critical
issues: slow processing that bottlenecks large-scale studies, inconsistent
prompting that hurts reproducibility, and narrow task coverage that misses
important audio reasoning capabilities. We introduce AU-Harness, an efficient
and comprehensive evaluation framework for LALMs. Our system achieves a speedup
of up to 127% over existing toolkits through optimized batch processing and
parallel execution, enabling large-scale evaluations previously impractical. We
provide standardized prompting protocols and flexible configurations for fair
model comparison across diverse scenarios. Additionally, we introduce two new
evaluation categories: LLM-Adaptive Diarization for temporal audio
understanding and Spoken Language Reasoning for complex audio-based cognitive
tasks. Through evaluation across 380+ tasks, we reveal significant gaps in
current LALMs, particularly in temporal understanding and complex spoken
language reasoning tasks. Our findings also highlight a lack of standardization
in instruction modality existent across audio benchmarks, which can lead up
performance differences up to 9.5 absolute points on the challenging complex
instruction following downstream tasks. AU-Harness provides both practical
evaluation tools and insights into model limitations, advancing systematic LALM
development.