AU-Harness : Une boîte à outils open-source pour l'évaluation holistique des modèles de langage audio

papers.abstract

Les modèles de langage audio de grande envergure (LALMs) progressent rapidement, mais leur évaluation reste un défi en raison de boîtes à outils inefficaces qui limitent les comparaisons équitables et les évaluations systématiques. Les cadres actuels souffrent de trois problèmes critiques : un traitement lent qui freine les études à grande échelle, des incitations incohérentes qui nuisent à la reproductibilité, et une couverture étroite des tâches qui néglige des capacités importantes de raisonnement audio. Nous présentons AU-Harness, un cadre d'évaluation efficace et complet pour les LALMs. Notre système atteint une accélération allant jusqu'à 127 % par rapport aux boîtes à outils existantes grâce à un traitement par lots optimisé et une exécution parallèle, permettant des évaluations à grande échelle auparavant impraticables. Nous proposons des protocoles d'incitation standardisés et des configurations flexibles pour des comparaisons équitables de modèles dans divers scénarios. De plus, nous introduisons deux nouvelles catégories d'évaluation : la Diarisation Adaptative LLM pour la compréhension temporelle audio et le Raisonnement en Langage Parlé pour les tâches cognitives complexes basées sur l'audio. À travers l'évaluation de plus de 380 tâches, nous révélons des lacunes significatives dans les LALMs actuels, notamment dans la compréhension temporelle et les tâches complexes de raisonnement en langage parlé. Nos résultats mettent également en lumière un manque de standardisation dans la modalité d'instruction existant dans les benchmarks audio, ce qui peut entraîner des différences de performance allant jusqu'à 9,5 points absolus sur les tâches complexes de suivi d'instructions en aval. AU-Harness fournit à la fois des outils d'évaluation pratiques et des insights sur les limites des modèles, faisant progresser le développement systématique des LALMs.

English

Large Audio Language Models (LALMs) are rapidly advancing, but evaluating them remains challenging due to inefficient toolkits that limit fair comparison and systematic assessment. Current frameworks suffer from three critical issues: slow processing that bottlenecks large-scale studies, inconsistent prompting that hurts reproducibility, and narrow task coverage that misses important audio reasoning capabilities. We introduce AU-Harness, an efficient and comprehensive evaluation framework for LALMs. Our system achieves a speedup of up to 127% over existing toolkits through optimized batch processing and parallel execution, enabling large-scale evaluations previously impractical. We provide standardized prompting protocols and flexible configurations for fair model comparison across diverse scenarios. Additionally, we introduce two new evaluation categories: LLM-Adaptive Diarization for temporal audio understanding and Spoken Language Reasoning for complex audio-based cognitive tasks. Through evaluation across 380+ tasks, we reveal significant gaps in current LALMs, particularly in temporal understanding and complex spoken language reasoning tasks. Our findings also highlight a lack of standardization in instruction modality existent across audio benchmarks, which can lead up performance differences up to 9.5 absolute points on the challenging complex instruction following downstream tasks. AU-Harness provides both practical evaluation tools and insights into model limitations, advancing systematic LALM development.

AU-Harness : Une boîte à outils open-source pour l'évaluation holistique des modèles de langage audio

AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs

papers.abstract

Support