JAEGER: Localização e Raciocínio Áudio-Visual 3D Conjunto em Ambientes Físicos Simulados

Resumo

Os modelos linguísticos audiovisuais de grande escala (AV-LLMs) atuais estão predominantemente restritos à percepção 2D, dependendo de vídeo RGB e áudio monoaural. Esta escolha de projeto introduz uma incompatibilidade fundamental de dimensionalidade que impede a localização confiável de fontes e o raciocínio espacial em ambientes 3D complexos. Nós abordamos esta limitação apresentando o JAEGER, uma estrutura que estende os AV-LLMs para o espaço 3D, para permitir a ancoragem espacial conjunta e o raciocínio através da integração de observações RGB-D e ambisonia multicanal de primeira ordem. Uma contribuição central do nosso trabalho é o vetor de intensidade neural (Neural IV), uma representação de áudio espacial aprendida que codifica pistas direcionais robustas para melhorar a estimativa da direção de chegada, mesmo em cenários acústicos adversos com fontes sobrepostas. Para facilitar o treinamento em larga escala e a avaliação sistemática, propomos o SpatialSceneQA, um benchmark de 61 mil amostras de ajuste por instrução curadas a partir de ambientes físicos simulados. Experimentos extensivos demonstram que a nossa abordagem supera consistentemente as linhas de base centradas em 2D em diversas tarefas de percepção e raciocínio espacial, destacando a necessidade de modelagem 3D explícita para avançar a IA em ambientes físicos. Nosso código-fonte, *checkpoints* de modelos pré-treinados e conjuntos de dados serão divulgados após a aceitação.

English

Current audio-visual large language models (AV-LLMs) are predominantly restricted to 2D perception, relying on RGB video and monaural audio. This design choice introduces a fundamental dimensionality mismatch that precludes reliable source localization and spatial reasoning in complex 3D environments. We address this limitation by presenting JAEGER, a framework that extends AV-LLMs to 3D space, to enable joint spatial grounding and reasoning through the integration of RGB-D observations and multi-channel first-order ambisonics. A core contribution of our work is the neural intensity vector (Neural IV), a learned spatial audio representation that encodes robust directional cues to enhance direction-of-arrival estimation, even in adverse acoustic scenarios with overlapping sources. To facilitate large-scale training and systematic evaluation, we propose SpatialSceneQA, a benchmark of 61k instruction-tuning samples curated from simulated physical environments. Extensive experiments demonstrate that our approach consistently surpasses 2D-centric baselines across diverse spatial perception and reasoning tasks, underscoring the necessity of explicit 3D modelling for advancing AI in physical environments. Our source code, pre-trained model checkpoints and datasets will be released upon acceptance.

JAEGER: Localização e Raciocínio Áudio-Visual 3D Conjunto em Ambientes Físicos Simulados

JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

Resumo

Support