JAEGER : Ancrage et Raisonnement Audio-Visuels 3D Conjoints dans des Environnements Physiques Simulés

Résumé

Les modèles de langage multimodaux audio-visuels (AV-LLM) actuels se limitent principalement à la perception 2D, reposant sur des vidéos RVB et de l'audio monophonique. Ce choix de conception introduit une inadéquation dimensionnelle fondamentale qui empêche la localisation fiable des sources et le raisonnement spatial dans des environnements 3D complexes. Nous abordons cette limitation en présentant JAEGER, un cadre qui étend les AV-LLM à l'espace 3D pour permettre un ancrage spatial et un raisonnement conjoints grâce à l'intégration d'observations RGB-D et d'ambisonies multicanal de premier ordre. Une contribution essentielle de notre travail est le vecteur d'intensité neuronale (Neural IV), une représentation audio spatiale apprise qui encode des indices directionnels robustes pour améliorer l'estimation de la direction d'arrivée, même dans des scénarios acoustiques défavorables avec des sources qui se chevauchent. Pour faciliter l'entraînement à grande échelle et l'évaluation systématique, nous proposons SpatialSceneQA, un benchmark de 61 000 échantillons d'ajustement par instruction provenant d'environnements physiques simulés. Des expériences approfondies démontrent que notre approche surpasse constamment les méthodes de référence centrées sur la 2D dans diverses tâches de perception et de raisonnement spatial, soulignant la nécessité d'une modélisation 3D explicite pour faire progresser l'IA dans les environnements physiques. Notre code source, nos points de contrôle de modèles pré-entraînés et nos jeux de données seront publiés après acceptation.

English

Current audio-visual large language models (AV-LLMs) are predominantly restricted to 2D perception, relying on RGB video and monaural audio. This design choice introduces a fundamental dimensionality mismatch that precludes reliable source localization and spatial reasoning in complex 3D environments. We address this limitation by presenting JAEGER, a framework that extends AV-LLMs to 3D space, to enable joint spatial grounding and reasoning through the integration of RGB-D observations and multi-channel first-order ambisonics. A core contribution of our work is the neural intensity vector (Neural IV), a learned spatial audio representation that encodes robust directional cues to enhance direction-of-arrival estimation, even in adverse acoustic scenarios with overlapping sources. To facilitate large-scale training and systematic evaluation, we propose SpatialSceneQA, a benchmark of 61k instruction-tuning samples curated from simulated physical environments. Extensive experiments demonstrate that our approach consistently surpasses 2D-centric baselines across diverse spatial perception and reasoning tasks, underscoring the necessity of explicit 3D modelling for advancing AI in physical environments. Our source code, pre-trained model checkpoints and datasets will be released upon acceptance.

JAEGER : Ancrage et Raisonnement Audio-Visuels 3D Conjoints dans des Environnements Physiques Simulés

JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

Résumé

Support