JAEGER: Gemeinsame 3D Audio-Visuell Verankerung und logisches Schließen in simulierten physischen Umgebungen

Zusammenfassung

Aktuelle audiovisuelle Großsprachmodelle (AV-LLMs) sind überwiegend auf die 2D-Wahrnehmung beschränkt und stützen sich auf RGB-Videos und monaurale Audiodaten. Diese Designentscheidung führt zu einer grundlegenden Dimensionsinkongruenz, die eine zuverlässige Quellenlokalisierung und räumliche Schlussfolgerung in komplexen 3D-Umgebungen verhindert. Wir adressieren diese Einschränkung mit JAEGER, einem Framework, das AV-LLMs in den 3D-Raum erweitert, um gemeinsame räumliche Verankerung und Schlussfolgerung durch die Integration von RGB-D-Beobachtungen und Mehrkanal-Ambisonics erster Ordnung zu ermöglichen. Ein zentraler Beitrag unserer Arbeit ist der neuronale Intensitätsvektor (Neural IV), eine gelernte räumliche Audiodarstellung, die robuste Richtungshinweise kodiert, um die Schalleinfallsrichtungs-Schätzung selbst unter ungünstigen akustischen Bedingungen mit überlappenden Quellen zu verbessern. Um groß angelegtes Training und systematische Evaluation zu ermöglichen, schlagen wir SpatialSceneQA vor, einen Benchmark mit 61k Instruction-Tuning-Beispielen, die aus simulierten physikalischen Umgebungen kuratiert wurden. Umfangreiche Experimente zeigen, dass unser Ansatz 2D-zentrierte Baseline-Modelte bei diversen räumlichen Wahrnehmungs- und Schlussfolgerungsaufgaben konsistent übertrifft, was die Notwendigkeit expliziter 3D-Modellierung für den Fortschritt von KI in physikalischen Umgebungen unterstreicht. Unser Quellcode, vortrainierte Modell-Checkpoints und Datensätze werden bei Annahme der Arbeit veröffentlicht.

English

Current audio-visual large language models (AV-LLMs) are predominantly restricted to 2D perception, relying on RGB video and monaural audio. This design choice introduces a fundamental dimensionality mismatch that precludes reliable source localization and spatial reasoning in complex 3D environments. We address this limitation by presenting JAEGER, a framework that extends AV-LLMs to 3D space, to enable joint spatial grounding and reasoning through the integration of RGB-D observations and multi-channel first-order ambisonics. A core contribution of our work is the neural intensity vector (Neural IV), a learned spatial audio representation that encodes robust directional cues to enhance direction-of-arrival estimation, even in adverse acoustic scenarios with overlapping sources. To facilitate large-scale training and systematic evaluation, we propose SpatialSceneQA, a benchmark of 61k instruction-tuning samples curated from simulated physical environments. Extensive experiments demonstrate that our approach consistently surpasses 2D-centric baselines across diverse spatial perception and reasoning tasks, underscoring the necessity of explicit 3D modelling for advancing AI in physical environments. Our source code, pre-trained model checkpoints and datasets will be released upon acceptance.

JAEGER: Gemeinsame 3D Audio-Visuell Verankerung und logisches Schließen in simulierten physischen Umgebungen

JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

Zusammenfassung

Support