AU-Harness: Инструментарий с открытым исходным кодом для комплексной оценки аудио-ориентированных языковых моделей
AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs
September 9, 2025
Авторы: Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan
cs.AI
Аннотация
Крупные аудио-языковые модели (LALMs) быстро развиваются, но их оценка остается сложной задачей из-за неэффективных инструментариев, которые ограничивают справедливое сравнение и систематическую оценку. Современные фреймворки страдают от трех ключевых проблем: медленная обработка, которая становится узким местом для крупномасштабных исследований, неоднородные подходы к формулированию запросов, которые снижают воспроизводимость, и узкий охват задач, который упускает важные возможности аудио-рассуждений. Мы представляем AU-Harness — эффективный и всеобъемлющий фреймворк для оценки LALMs. Наша система достигает ускорения до 127% по сравнению с существующими инструментариями благодаря оптимизированной пакетной обработке и параллельному выполнению, что делает возможными крупномасштабные оценки, ранее недоступные. Мы предлагаем стандартизированные протоколы формулирования запросов и гибкие конфигурации для справедливого сравнения моделей в различных сценариях. Кроме того, мы вводим две новые категории оценки: LLM-Adaptive Diarization для временного понимания аудио и Spoken Language Reasoning для сложных когнитивных задач на основе аудио. В ходе оценки более 380 задач мы выявили значительные пробелы в современных LALMs, особенно в области временного понимания и сложных задач аудио-рассуждений. Наши результаты также подчеркивают отсутствие стандартизации в модальности инструкций в существующих аудио-бенчмарках, что может приводить к различиям в производительности до 9,5 абсолютных пунктов в сложных задачах следования инструкциям. AU-Harness предоставляет как практические инструменты для оценки, так и инсайты о ограничениях моделей, способствуя систематическому развитию LALMs.
English
Large Audio Language Models (LALMs) are rapidly advancing, but evaluating
them remains challenging due to inefficient toolkits that limit fair comparison
and systematic assessment. Current frameworks suffer from three critical
issues: slow processing that bottlenecks large-scale studies, inconsistent
prompting that hurts reproducibility, and narrow task coverage that misses
important audio reasoning capabilities. We introduce AU-Harness, an efficient
and comprehensive evaluation framework for LALMs. Our system achieves a speedup
of up to 127% over existing toolkits through optimized batch processing and
parallel execution, enabling large-scale evaluations previously impractical. We
provide standardized prompting protocols and flexible configurations for fair
model comparison across diverse scenarios. Additionally, we introduce two new
evaluation categories: LLM-Adaptive Diarization for temporal audio
understanding and Spoken Language Reasoning for complex audio-based cognitive
tasks. Through evaluation across 380+ tasks, we reveal significant gaps in
current LALMs, particularly in temporal understanding and complex spoken
language reasoning tasks. Our findings also highlight a lack of standardization
in instruction modality existent across audio benchmarks, which can lead up
performance differences up to 9.5 absolute points on the challenging complex
instruction following downstream tasks. AU-Harness provides both practical
evaluation tools and insights into model limitations, advancing systematic LALM
development.