AU-Harness: Um Kit de Ferramentas de Código Aberto para Avaliação Holística de LLMs de Áudio
AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs
September 9, 2025
Autores: Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan
cs.AI
Resumo
Os Grandes Modelos de Linguagem de Áudio (LALMs, na sigla em inglês) estão avançando rapidamente, mas sua avaliação continua desafiadora devido a kits de ferramentas ineficientes que limitam comparações justas e avaliações sistemáticas. Os frameworks atuais sofrem com três problemas críticos: processamento lento que cria gargalos em estudos em larga escala, prompts inconsistentes que prejudicam a reprodutibilidade e cobertura limitada de tarefas que ignora capacidades importantes de raciocínio em áudio. Apresentamos o AU-Harness, um framework de avaliação eficiente e abrangente para LALMs. Nosso sistema alcança uma aceleração de até 127% em relação aos kits de ferramentas existentes por meio de processamento em lote otimizado e execução paralela, permitindo avaliações em larga escala anteriormente impraticáveis. Oferecemos protocolos de prompts padronizados e configurações flexíveis para comparações justas de modelos em diversos cenários. Além disso, introduzimos duas novas categorias de avaliação: Diarização Adaptativa a LLMs para compreensão temporal de áudio e Raciocínio em Linguagem Falada para tarefas cognitivas complexas baseadas em áudio. Por meio da avaliação em mais de 380 tarefas, revelamos lacunas significativas nos LALMs atuais, particularmente em compreensão temporal e tarefas complexas de raciocínio em linguagem falada. Nossas descobertas também destacam a falta de padronização na modalidade de instrução presente em benchmarks de áudio, o que pode levar a diferenças de desempenho de até 9,5 pontos absolutos em tarefas desafiadoras de seguimento de instruções complexas. O AU-Harness fornece tanto ferramentas práticas de avaliação quanto insights sobre as limitações dos modelos, avançando o desenvolvimento sistemático de LALMs.
English
Large Audio Language Models (LALMs) are rapidly advancing, but evaluating
them remains challenging due to inefficient toolkits that limit fair comparison
and systematic assessment. Current frameworks suffer from three critical
issues: slow processing that bottlenecks large-scale studies, inconsistent
prompting that hurts reproducibility, and narrow task coverage that misses
important audio reasoning capabilities. We introduce AU-Harness, an efficient
and comprehensive evaluation framework for LALMs. Our system achieves a speedup
of up to 127% over existing toolkits through optimized batch processing and
parallel execution, enabling large-scale evaluations previously impractical. We
provide standardized prompting protocols and flexible configurations for fair
model comparison across diverse scenarios. Additionally, we introduce two new
evaluation categories: LLM-Adaptive Diarization for temporal audio
understanding and Spoken Language Reasoning for complex audio-based cognitive
tasks. Through evaluation across 380+ tasks, we reveal significant gaps in
current LALMs, particularly in temporal understanding and complex spoken
language reasoning tasks. Our findings also highlight a lack of standardization
in instruction modality existent across audio benchmarks, which can lead up
performance differences up to 9.5 absolute points on the challenging complex
instruction following downstream tasks. AU-Harness provides both practical
evaluation tools and insights into model limitations, advancing systematic LALM
development.