AuditoryBench++ : Les modèles de langage peuvent-ils comprendre les connaissances auditives sans entendre ?
AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?
September 22, 2025
papers.authors: Hyunjong Ok, Suho Yoo, Hyeonjun Kim, Jaeho Lee
cs.AI
papers.abstract
Même sans entendre directement les sons, les humains peuvent raisonner sans effort sur les propriétés auditives, telles que la hauteur, l'intensité ou les associations de sources sonores, en s'appuyant sur le bon sens auditif. En revanche, les modèles de langage manquent souvent de cette capacité, ce qui limite leur efficacité dans les interactions multimodales. Pour combler cette lacune, nous présentons AuditoryBench++, un benchmark complet pour évaluer les connaissances et le raisonnement auditifs dans des contextes textuels uniquement. Ce benchmark englobe des tâches allant des comparaisons auditives de base au raisonnement contextuel, permettant une analyse fine de la manière dont les modèles traitent et intègrent les concepts auditifs. De plus, nous introduisons AIR-CoT, une nouvelle méthode de raisonnement par imagination auditive qui génère et intègre des informations auditives lors de l'inférence grâce à la détection de segments avec des tokens spéciaux et l'injection de connaissances. Des expériences approfondies avec des modèles de langage récents (LLMs) et des modèles de langage multimodaux (Multimodal LLMs) montrent qu'AIR-CoT surpasse généralement à la fois les modèles prêts à l'emploi et ceux enrichis de connaissances auditives. La page du projet est disponible à l'adresse https://auditorybenchpp.github.io.
English
Even without directly hearing sounds, humans can effortlessly reason about
auditory properties, such as pitch, loudness, or sound-source associations,
drawing on auditory commonsense. In contrast, language models often lack this
capability, limiting their effectiveness in multimodal interactions. As an
initial step to address this gap, we present AuditoryBench++, a comprehensive
benchmark for evaluating auditory knowledge and reasoning in text-only
settings. The benchmark encompasses tasks that range from basic auditory
comparisons to contextually grounded reasoning, enabling fine-grained analysis
of how models process and integrate auditory concepts. In addition, we
introduce AIR-CoT, a novel auditory imagination reasoning method that generates
and integrates auditory information during inference through span detection
with special tokens and knowledge injection. Extensive experiments with recent
LLMs and Multimodal LLMs demonstrate that AIR-CoT generally outperforms both
the off-the-shelf models and those augmented with auditory knowledge. The
project page is available at https://auditorybenchpp.github.io.