Navegação Semântica Áudio-Visual em Ambientes Contínuos

Resumo

A navegação audiovisual permite que agentes corporificados naveguem em direção a alvos emissores de som, aproveitando pistas auditivas e visuais. No entanto, a maioria das abordagens existentes depende de respostas impulsivas de sala (RIRs) pré-computadas para renderização de áudio binaural, restringindo os agentes a posições discretas em grade e levando a observações espacialmente descontínuas. Para estabelecer um cenário mais realista, introduzimos a Navegação Semântica Audiovisual em Ambientes Contínuos (SAVN-CE), onde os agentes podem se mover livremente em espaços 3D e perceber fluxos audiovisuais temporal e espacialmente coerentes. Neste cenário, os alvos podem ficar intermitentemente silenciosos ou parar de emitir som completamente, fazendo com que os agentes percam informações do objetivo. Para enfrentar este desafio, propomos o MAGNet, um modelo baseado em transformador multimodal que codifica conjuntamente representações espaciais e semânticas do objetivo e integra contexto histórico com pistas de autolocomoção para permitir um raciocínio sobre objetivos aumentado por memória. Experimentos abrangentes demonstram que o MAGNet supera significativamente os métodos state-of-the-art, alcançando uma melhoria absoluta de até 12,1% na taxa de sucesso. Estes resultados também destacam sua robustez para sons de curta duração e cenários de navegação de longa distância. O código está disponível em https://github.com/yichenzeng24/SAVN-CE.

English

Audio-visual navigation enables embodied agents to navigate toward sound-emitting targets by leveraging both auditory and visual cues. However, most existing approaches rely on precomputed room impulse responses (RIRs) for binaural audio rendering, restricting agents to discrete grid positions and leading to spatially discontinuous observations. To establish a more realistic setting, we introduce Semantic Audio-Visual Navigation in Continuous Environments (SAVN-CE), where agents can move freely in 3D spaces and perceive temporally and spatially coherent audio-visual streams. In this setting, targets may intermittently become silent or stop emitting sound entirely, causing agents to lose goal information. To tackle this challenge, we propose MAGNet, a multimodal transformer-based model that jointly encodes spatial and semantic goal representations and integrates historical context with self-motion cues to enable memory-augmented goal reasoning. Comprehensive experiments demonstrate that MAGNet significantly outperforms state-of-the-art methods, achieving up to a 12.1\% absolute improvement in success rate. These results also highlight its robustness to short-duration sounds and long-distance navigation scenarios. The code is available at https://github.com/yichenzeng24/SAVN-CE.