Semantische Audio-Visuell Navigation in kontinuierlichen Umgebungen

Zusammenfassung

Audiovisuelle Navigation ermöglicht es verkörperten Agenten, unter Nutzung sowohl akustischer als auch visueller Hinweise auf klangerzeugende Ziele zuzusteuern. Die meisten bestehenden Ansätze stützen sich jedoch auf vorberechnete Raumimpulsantworten (RIRs) für die binaurale Audiowiedergabe, was Agenten auf diskrete Gitterpositionen beschränkt und zu räumlich diskontinuierlichen Beobachtungen führt. Um eine realistischere Umgebung zu schaffen, führen wir Semantische Audiovisuelle Navigation in Kontinuierlichen Umgebungen (SAVN-CE) ein, in der sich Agenten frei in 3D-Räumen bewegen und zeitlich sowie räumlich kohärente audiovisuelle Datenströme wahrnehmen können. In diesem Szenario können Ziele zeitweise verstummen oder die Schallabstrahlung vollständig einstellen, was dazu führt, dass Agenten die Zielinformation verlieren. Um diese Herausforderung zu bewältigen, schlagen wir MAGNet vor, ein multimodales transformerbasiertes Modell, das räumliche und semantische Zielrepräsentationen gemeinsam kodiert und historischen Kontext mit Eigenbewegungshinweisen integriert, um eine speichergestützte Zielableitung zu ermöglichen. Umfassende Experimente zeigen, dass MAGNet state-of-the-art-Methoden signifikant übertrifft und eine absolute Steigerung der Erfolgsrate von bis zu 12,1 % erreicht. Diese Ergebnisse unterstreichen auch seine Robustheit gegenüber Kurzzeitsignalen und Langstreckennavigationsszenarien. Der Code ist verfügbar unter https://github.com/yichenzeng24/SAVN-CE.

English

Audio-visual navigation enables embodied agents to navigate toward sound-emitting targets by leveraging both auditory and visual cues. However, most existing approaches rely on precomputed room impulse responses (RIRs) for binaural audio rendering, restricting agents to discrete grid positions and leading to spatially discontinuous observations. To establish a more realistic setting, we introduce Semantic Audio-Visual Navigation in Continuous Environments (SAVN-CE), where agents can move freely in 3D spaces and perceive temporally and spatially coherent audio-visual streams. In this setting, targets may intermittently become silent or stop emitting sound entirely, causing agents to lose goal information. To tackle this challenge, we propose MAGNet, a multimodal transformer-based model that jointly encodes spatial and semantic goal representations and integrates historical context with self-motion cues to enable memory-augmented goal reasoning. Comprehensive experiments demonstrate that MAGNet significantly outperforms state-of-the-art methods, achieving up to a 12.1\% absolute improvement in success rate. These results also highlight its robustness to short-duration sounds and long-distance navigation scenarios. The code is available at https://github.com/yichenzeng24/SAVN-CE.