Navegación Semántica Audiovisual en Entornos Continuos

Resumen

La navegación audiovisual permite a los agentes corporizados navegar hacia objetivos que emiten sonido aprovechando tanto las señales auditivas como las visuales. Sin embargo, la mayoría de los enfoques existentes dependen de respuestas impulsivas de sala (RIR) precalculadas para la renderización de audio binaural, lo que restringe a los agentes a posiciones discretas en una cuadrícula y genera observaciones espacialmente discontinuas. Para establecer un entorno más realista, presentamos la Navegación Semántica Audiovisual en Entornos Continuos (SAVN-CE), donde los agentes pueden moverse libremente en espacios 3D y percibir flujos audiovisuales temporal y espacialmente coherentes. En este entorno, los objetivos pueden volverse intermitentemente silenciosos o dejar de emitir sonido por completo, haciendo que los agentes pierdan la información del objetivo. Para abordar este desafío, proponemos MAGNet, un modelo basado en transformadores multimodales que codifica conjuntamente las representaciones espaciales y semánticas del objetivo e integra el contexto histórico con las señales de auto-movimiento para permitir un razonamiento del objetivo aumentado por memoria. Experimentos exhaustivos demuestran que MAGNet supera significativamente a los métodos de vanguardia, logrando una mejora absoluta de hasta el 12.1% en la tasa de éxito. Estos resultados también destacan su robustez frente a sonidos de corta duración y escenarios de navegación a larga distancia. El código está disponible en https://github.com/yichenzeng24/SAVN-CE.

English

Audio-visual navigation enables embodied agents to navigate toward sound-emitting targets by leveraging both auditory and visual cues. However, most existing approaches rely on precomputed room impulse responses (RIRs) for binaural audio rendering, restricting agents to discrete grid positions and leading to spatially discontinuous observations. To establish a more realistic setting, we introduce Semantic Audio-Visual Navigation in Continuous Environments (SAVN-CE), where agents can move freely in 3D spaces and perceive temporally and spatially coherent audio-visual streams. In this setting, targets may intermittently become silent or stop emitting sound entirely, causing agents to lose goal information. To tackle this challenge, we propose MAGNet, a multimodal transformer-based model that jointly encodes spatial and semantic goal representations and integrates historical context with self-motion cues to enable memory-augmented goal reasoning. Comprehensive experiments demonstrate that MAGNet significantly outperforms state-of-the-art methods, achieving up to a 12.1\% absolute improvement in success rate. These results also highlight its robustness to short-duration sounds and long-distance navigation scenarios. The code is available at https://github.com/yichenzeng24/SAVN-CE.