JAEGER: Localizzazione e Ragionamento Audio-Visivo 3D Congiunto in Ambienti Fisici Simulati

Abstract

Gli attuali modelli linguistici audiovisivi di grandi dimensioni (AV-LLM) sono prevalentemente limitati alla percezione 2D, basandosi su video RGB e audio monofonico. Questa scelta progettuale introduce una fondamentale discrepanza dimensionale che impedisce una localizzazione affidabile delle sorgenti e un ragionamento spaziale in ambienti 3D complessi. Affrontiamo questa limitazione presentando JAEGER, un framework che estende gli AV-LLM allo spazio 3D, per abilitare un grounding spaziale congiunto e il ragionamento attraverso l'integrazione di osservazioni RGB-D e ambisonics multicanale del primo ordine. Un contributo fondamentale del nostro lavoro è il vettore di intensità neurale (Neural IV), una rappresentazione audio spaziale appresa che codifica indizi direzionali robusti per migliorare la stima della direzione di arrivo, anche in scenari acustici avversi con sorgenti sovrapposte. Per facilitare l'addestramento su larga scala e la valutazione sistematica, proponiamo SpatialSceneQA, un benchmark di 61k campioni per l'instruction-tuning curati da ambienti fisici simulati. Esperimenti estensivi dimostrano che il nostro approccio supera costantemente i baseline centrati sul 2D in varie attività di percezione e ragionamento spaziale, sottolineando la necessità di una modellazione 3D esplicita per far avanzare l'IA negli ambienti fisici. Il nostro codice sorgente, i checkpoint dei modelli pre-addestrati e i dataset saranno rilasciati al momento dell'accettazione.

English

Current audio-visual large language models (AV-LLMs) are predominantly restricted to 2D perception, relying on RGB video and monaural audio. This design choice introduces a fundamental dimensionality mismatch that precludes reliable source localization and spatial reasoning in complex 3D environments. We address this limitation by presenting JAEGER, a framework that extends AV-LLMs to 3D space, to enable joint spatial grounding and reasoning through the integration of RGB-D observations and multi-channel first-order ambisonics. A core contribution of our work is the neural intensity vector (Neural IV), a learned spatial audio representation that encodes robust directional cues to enhance direction-of-arrival estimation, even in adverse acoustic scenarios with overlapping sources. To facilitate large-scale training and systematic evaluation, we propose SpatialSceneQA, a benchmark of 61k instruction-tuning samples curated from simulated physical environments. Extensive experiments demonstrate that our approach consistently surpasses 2D-centric baselines across diverse spatial perception and reasoning tasks, underscoring the necessity of explicit 3D modelling for advancing AI in physical environments. Our source code, pre-trained model checkpoints and datasets will be released upon acceptance.

JAEGER: Localizzazione e Ragionamento Audio-Visivo 3D Congiunto in Ambienti Fisici Simulati

JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

Abstract

Support