AU-Harness: Un kit de herramientas de código abierto para la evaluación integral de modelos de lenguaje de audio (LLMs)
AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs
September 9, 2025
Autores: Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan
cs.AI
Resumen
Los Modelos de Lenguaje de Audio a Gran Escala (LALMs, por sus siglas en inglés) están avanzando rápidamente, pero su evaluación sigue siendo un desafío debido a herramientas ineficientes que limitan la comparación justa y la evaluación sistemática. Los marcos actuales presentan tres problemas críticos: procesamiento lento que obstaculiza estudios a gran escala, indicaciones inconsistentes que perjudican la reproducibilidad, y cobertura limitada de tareas que omite capacidades importantes de razonamiento auditivo. Presentamos AU-Harness, un marco de evaluación eficiente y completo para LALMs. Nuestro sistema logra una aceleración de hasta el 127% sobre las herramientas existentes mediante procesamiento por lotes optimizado y ejecución paralela, permitiendo evaluaciones a gran escala que antes eran impracticables. Ofrecemos protocolos de indicación estandarizados y configuraciones flexibles para una comparación justa de modelos en diversos escenarios. Además, introducimos dos nuevas categorías de evaluación: Diarización Adaptativa a LLM para la comprensión temporal de audio y Razonamiento en Lenguaje Hablado para tareas cognitivas complejas basadas en audio. A través de la evaluación en más de 380 tareas, revelamos brechas significativas en los LALMs actuales, particularmente en la comprensión temporal y las tareas complejas de razonamiento en lenguaje hablado. Nuestros hallazgos también destacan una falta de estandarización en la modalidad de instrucción presente en los puntos de referencia de audio, lo que puede generar diferencias de rendimiento de hasta 9.5 puntos absolutos en tareas complejas de seguimiento de instrucciones. AU-Harness proporciona tanto herramientas prácticas de evaluación como insights sobre las limitaciones de los modelos, avanzando el desarrollo sistemático de LALMs.
English
Large Audio Language Models (LALMs) are rapidly advancing, but evaluating
them remains challenging due to inefficient toolkits that limit fair comparison
and systematic assessment. Current frameworks suffer from three critical
issues: slow processing that bottlenecks large-scale studies, inconsistent
prompting that hurts reproducibility, and narrow task coverage that misses
important audio reasoning capabilities. We introduce AU-Harness, an efficient
and comprehensive evaluation framework for LALMs. Our system achieves a speedup
of up to 127% over existing toolkits through optimized batch processing and
parallel execution, enabling large-scale evaluations previously impractical. We
provide standardized prompting protocols and flexible configurations for fair
model comparison across diverse scenarios. Additionally, we introduce two new
evaluation categories: LLM-Adaptive Diarization for temporal audio
understanding and Spoken Language Reasoning for complex audio-based cognitive
tasks. Through evaluation across 380+ tasks, we reveal significant gaps in
current LALMs, particularly in temporal understanding and complex spoken
language reasoning tasks. Our findings also highlight a lack of standardization
in instruction modality existent across audio benchmarks, which can lead up
performance differences up to 9.5 absolute points on the challenging complex
instruction following downstream tasks. AU-Harness provides both practical
evaluation tools and insights into model limitations, advancing systematic LALM
development.