AuditoryBench++: Могут ли языковые модели понимать слуховые знания, не слыша?
AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?
September 22, 2025
Авторы: Hyunjong Ok, Suho Yoo, Hyeonjun Kim, Jaeho Lee
cs.AI
Аннотация
Даже без непосредственного восприятия звуков люди могут легко рассуждать о слуховых свойствах, таких как высота тона, громкость или ассоциации с источниками звука, опираясь на слуховую интуицию. В отличие от этого, языковые модели часто лишены такой способности, что ограничивает их эффективность в мультимодальных взаимодействиях. В качестве первого шага для устранения этого пробела мы представляем AuditoryBench++, всеобъемлющий бенчмарк для оценки слуховых знаний и рассуждений в условиях работы только с текстом. Этот бенчмарк включает задачи, начиная от базовых слуховых сравнений до контекстуально обоснованных рассуждений, что позволяет проводить детальный анализ того, как модели обрабатывают и интегрируют слуховые концепции. Кроме того, мы представляем AIR-CoT, новый метод слухового воображения и рассуждения, который генерирует и интегрирует слуховую информацию в процессе вывода через обнаружение фрагментов с использованием специальных токенов и инъекции знаний. Масштабные эксперименты с последними языковыми моделями (LLM) и мультимодальными языковыми моделями (Multimodal LLM) демонстрируют, что AIR-CoT в целом превосходит как готовые модели, так и модели, дополненные слуховыми знаниями. Страница проекта доступна по адресу https://auditorybenchpp.github.io.
English
Even without directly hearing sounds, humans can effortlessly reason about
auditory properties, such as pitch, loudness, or sound-source associations,
drawing on auditory commonsense. In contrast, language models often lack this
capability, limiting their effectiveness in multimodal interactions. As an
initial step to address this gap, we present AuditoryBench++, a comprehensive
benchmark for evaluating auditory knowledge and reasoning in text-only
settings. The benchmark encompasses tasks that range from basic auditory
comparisons to contextually grounded reasoning, enabling fine-grained analysis
of how models process and integrate auditory concepts. In addition, we
introduce AIR-CoT, a novel auditory imagination reasoning method that generates
and integrates auditory information during inference through span detection
with special tokens and knowledge injection. Extensive experiments with recent
LLMs and Multimodal LLMs demonstrate that AIR-CoT generally outperforms both
the off-the-shelf models and those augmented with auditory knowledge. The
project page is available at https://auditorybenchpp.github.io.