AU-Harness: 오디오 LLM의 종합적 평가를 위한 오픈소스 툴킷
AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs
September 9, 2025
저자: Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan
cs.AI
초록
대규모 오디오 언어 모델(LALMs)은 빠르게 발전하고 있지만, 비효율적인 툴킷으로 인해 공정한 비교와 체계적인 평가가 어려운 상황입니다. 현재의 프레임워크는 세 가지 주요 문제를 안고 있습니다: 대규모 연구를 병목현상으로 만드는 느린 처리 속도, 재현성을 해치는 일관성 없는 프롬프팅, 그리고 중요한 오디오 추론 능력을 놓치는 좁은 작업 범위입니다. 우리는 이러한 문제를 해결하기 위해 AU-Harness라는 효율적이고 포괄적인 LALM 평가 프레임워크를 소개합니다. 우리의 시스템은 최적화된 배치 처리와 병렬 실행을 통해 기존 툴킷 대비 최대 127%의 속도 향상을 달성하여, 이전에는 실현하기 어려웠던 대규모 평가를 가능하게 합니다. 또한, 다양한 시나리오에서 공정한 모델 비교를 위한 표준화된 프롬프팅 프로토콜과 유연한 구성을 제공합니다. 더불어, 시간적 오디오 이해를 위한 LLM-Adaptive Diarization과 복잡한 오디오 기반 인지 작업을 위한 Spoken Language Reasoning이라는 두 가지 새로운 평가 범주를 도입했습니다. 380개 이상의 작업에 걸친 평가를 통해, 현재의 LALMs가 특히 시간적 이해와 복잡한 음성 언어 추론 작업에서 상당한 격차를 보인다는 사실을 밝혀냈습니다. 또한, 우리의 연구 결과는 오디오 벤치마크 전반에 걸쳐 존재하는 명령 방식의 표준화 부재가 도전적인 복잡한 명령어 수행 하위 작업에서 최대 9.5 포인트의 성능 차이를 초래할 수 있음을 강조합니다. AU-Harness는 실용적인 평가 도구와 모델의 한계에 대한 통찰을 제공함으로써 체계적인 LALM 개발을 촉진합니다.
English
Large Audio Language Models (LALMs) are rapidly advancing, but evaluating
them remains challenging due to inefficient toolkits that limit fair comparison
and systematic assessment. Current frameworks suffer from three critical
issues: slow processing that bottlenecks large-scale studies, inconsistent
prompting that hurts reproducibility, and narrow task coverage that misses
important audio reasoning capabilities. We introduce AU-Harness, an efficient
and comprehensive evaluation framework for LALMs. Our system achieves a speedup
of up to 127% over existing toolkits through optimized batch processing and
parallel execution, enabling large-scale evaluations previously impractical. We
provide standardized prompting protocols and flexible configurations for fair
model comparison across diverse scenarios. Additionally, we introduce two new
evaluation categories: LLM-Adaptive Diarization for temporal audio
understanding and Spoken Language Reasoning for complex audio-based cognitive
tasks. Through evaluation across 380+ tasks, we reveal significant gaps in
current LALMs, particularly in temporal understanding and complex spoken
language reasoning tasks. Our findings also highlight a lack of standardization
in instruction modality existent across audio benchmarks, which can lead up
performance differences up to 9.5 absolute points on the challenging complex
instruction following downstream tasks. AU-Harness provides both practical
evaluation tools and insights into model limitations, advancing systematic LALM
development.