AuditoryBench++: I Modelli Linguistici Possono Comprendere la Conoscenza Uditiva Senza Sentire?
AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?
September 22, 2025
Autori: Hyunjong Ok, Suho Yoo, Hyeonjun Kim, Jaeho Lee
cs.AI
Abstract
Anche senza ascoltare direttamente i suoni, gli esseri umani possono ragionare senza sforzo sulle proprietà uditive, come l'altezza, il volume o le associazioni con la sorgente sonora, attingendo al senso comune uditivo. Al contrario, i modelli linguistici spesso mancano di questa capacità, limitando la loro efficacia nelle interazioni multimodali. Come primo passo per colmare questa lacuna, presentiamo AuditoryBench++, un benchmark completo per valutare la conoscenza e il ragionamento uditivo in contesti basati esclusivamente sul testo. Il benchmark comprende attività che vanno dai confronti uditivi di base al ragionamento contestualmente fondato, consentendo un'analisi granulare di come i modelli elaborano e integrano i concetti uditivi. Inoltre, introduciamo AIR-CoT, un innovativo metodo di ragionamento basato sull'immaginazione uditiva che genera e integra informazioni uditive durante l'inferenza attraverso il rilevamento di span con token speciali e l'iniezione di conoscenza. Esperimenti estesi con recenti LLM e Multimodal LLM dimostrano che AIR-CoT generalmente supera sia i modelli predefiniti che quelli arricchiti con conoscenza uditiva. La pagina del progetto è disponibile all'indirizzo https://auditorybenchpp.github.io.
English
Even without directly hearing sounds, humans can effortlessly reason about
auditory properties, such as pitch, loudness, or sound-source associations,
drawing on auditory commonsense. In contrast, language models often lack this
capability, limiting their effectiveness in multimodal interactions. As an
initial step to address this gap, we present AuditoryBench++, a comprehensive
benchmark for evaluating auditory knowledge and reasoning in text-only
settings. The benchmark encompasses tasks that range from basic auditory
comparisons to contextually grounded reasoning, enabling fine-grained analysis
of how models process and integrate auditory concepts. In addition, we
introduce AIR-CoT, a novel auditory imagination reasoning method that generates
and integrates auditory information during inference through span detection
with special tokens and knowledge injection. Extensive experiments with recent
LLMs and Multimodal LLMs demonstrate that AIR-CoT generally outperforms both
the off-the-shelf models and those augmented with auditory knowledge. The
project page is available at https://auditorybenchpp.github.io.