ChatPaper.aiChatPaper

AuditoryBench++: ¿Pueden los modelos de lenguaje comprender el conocimiento auditivo sin escuchar?

AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?

September 22, 2025
Autores: Hyunjong Ok, Suho Yoo, Hyeonjun Kim, Jaeho Lee
cs.AI

Resumen

Incluso sin escuchar sonidos directamente, los humanos pueden razonar sin esfuerzo sobre propiedades auditivas, como el tono, el volumen o las asociaciones de fuentes sonoras, basándose en el sentido común auditivo. En contraste, los modelos de lenguaje a menudo carecen de esta capacidad, lo que limita su efectividad en interacciones multimodales. Como un primer paso para abordar esta brecha, presentamos AuditoryBench++, un benchmark integral para evaluar el conocimiento y el razonamiento auditivo en entornos basados únicamente en texto. El benchmark abarca tareas que van desde comparaciones auditivas básicas hasta razonamientos contextualmente fundamentados, permitiendo un análisis detallado de cómo los modelos procesan e integran conceptos auditivos. Además, introducimos AIR-CoT, un novedoso método de razonamiento de imaginación auditiva que genera e integra información auditiva durante la inferencia mediante la detección de segmentos con tokens especiales y la inyección de conocimiento. Experimentos extensos con modelos de lenguaje recientes (LLMs) y modelos de lenguaje multimodales (Multimodal LLMs) demuestran que AIR-CoT generalmente supera tanto a los modelos estándar como a aquellos aumentados con conocimiento auditivo. La página del proyecto está disponible en https://auditorybenchpp.github.io.
English
Even without directly hearing sounds, humans can effortlessly reason about auditory properties, such as pitch, loudness, or sound-source associations, drawing on auditory commonsense. In contrast, language models often lack this capability, limiting their effectiveness in multimodal interactions. As an initial step to address this gap, we present AuditoryBench++, a comprehensive benchmark for evaluating auditory knowledge and reasoning in text-only settings. The benchmark encompasses tasks that range from basic auditory comparisons to contextually grounded reasoning, enabling fine-grained analysis of how models process and integrate auditory concepts. In addition, we introduce AIR-CoT, a novel auditory imagination reasoning method that generates and integrates auditory information during inference through span detection with special tokens and knowledge injection. Extensive experiments with recent LLMs and Multimodal LLMs demonstrate that AIR-CoT generally outperforms both the off-the-shelf models and those augmented with auditory knowledge. The project page is available at https://auditorybenchpp.github.io.
PDF32September 23, 2025