JAEGER: Совместное 3D аудиовизуальное заземление и логический вывод в смоделированных физических средах

Аннотация

Современные аудиовизуальные большие языковые модели (AV-LLM) в основном ограничены двумерным восприятием, основанным на RGB-видео и монофоническом аудио. Такой подход создает фундаментальное несоответствие размерностей, которое препятствует надежному определению местоположения источников и пространственному мышлению в сложных трехмерных средах. Мы преодолеваем это ограничение, представляя JAEGER — фреймворк, расширяющий AV-LLM в трехмерное пространство для совместного пространственного позиционирования и логического вывода путем интеграции RGB-D наблюдений и многоканального аудио первого порядка в формате амбисонкс. Ключевым вкладом нашей работы является нейронный вектор интенсивности (Neural IV) — обученное пространственное аудиопредставление, кодирующее надежные направленные сигналы для улучшения оценки направления прихода звука даже в сложных акустических сценариях с перекрывающимися источниками. Для обеспечения масштабируемого обучения и систематической оценки мы предлагаем SpatialSceneQA — бенчмарк, содержащий 61 тыс. инструкций для тонкой настройки, созданных на основе смоделированных физических сред. Многочисленные эксперименты демонстрируют, что наш подход стабильно превосходит ориентированные на 2D базовые методы в разнообразных задачах пространственного восприятия и логического вывода, подчеркивая необходимость явного 3D-моделирования для развития ИИ в физических средах. Наш исходный код, предобученные модельные чекпоинты и наборы данных будут опубликованы после принятия статьи.

English

Current audio-visual large language models (AV-LLMs) are predominantly restricted to 2D perception, relying on RGB video and monaural audio. This design choice introduces a fundamental dimensionality mismatch that precludes reliable source localization and spatial reasoning in complex 3D environments. We address this limitation by presenting JAEGER, a framework that extends AV-LLMs to 3D space, to enable joint spatial grounding and reasoning through the integration of RGB-D observations and multi-channel first-order ambisonics. A core contribution of our work is the neural intensity vector (Neural IV), a learned spatial audio representation that encodes robust directional cues to enhance direction-of-arrival estimation, even in adverse acoustic scenarios with overlapping sources. To facilitate large-scale training and systematic evaluation, we propose SpatialSceneQA, a benchmark of 61k instruction-tuning samples curated from simulated physical environments. Extensive experiments demonstrate that our approach consistently surpasses 2D-centric baselines across diverse spatial perception and reasoning tasks, underscoring the necessity of explicit 3D modelling for advancing AI in physical environments. Our source code, pre-trained model checkpoints and datasets will be released upon acceptance.

JAEGER: Совместное 3D аудиовизуальное заземление и логический вывод в смоделированных физических средах

JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

Аннотация

Support