Navegación Orientada a Objetivos con Lenguaje Natural y Demostraciones de Automejora a Escala
Learning Goal-Oriented Language-Guided Navigation with Self-Improving Demonstrations at Scale
September 29, 2025
Autores: Songze Li, Zun Wang, Gengze Zhou, Jialu Li, Xiangyu Zeng, Limin Wang, Yu Qiao, Qi Wu, Mohit Bansal, Yi Wang
cs.AI
Resumen
La navegación guiada por lenguaje orientada a objetivos requiere capacidades de exploración robustas para que los agentes puedan navegar hacia metas específicas en entornos desconocidos sin instrucciones paso a paso. Los métodos existentes tienden a utilizar exclusivamente trayectorias de camino más corto, careciendo de prioridades de exploración efectivas para entrenar agentes de navegación. Para abordar estos desafíos, presentamos SID, un enfoque de aprendizaje de navegación guiada por lenguaje orientado a objetivos con Demostraciones de Automejora. Específicamente, SID entrena un agente inicial con datos de camino más corto muestreados de los entornos y luego aprovecha este agente para generar trayectorias de exploración novedosas. Estas nuevas ejecuciones proporcionan demostraciones con estrategias de exploración más sólidas para entrenar un agente mejor, que a su vez produce demostraciones de mayor calidad para la siguiente ronda de entrenamiento. Demostramos que este pipeline iterativo de automejora se escala fácilmente a nuevos entornos, y las demostraciones resultantes pueden transferirse a una variedad de tareas de navegación guiada por lenguaje, elevando el límite de rendimiento en diversas tareas de navegación orientadas a objetivos. Experimentos extensos demuestran que SID mejora significativamente las capacidades de exploración y generalización de los agentes de navegación. El agente resultante alcanza un nuevo rendimiento de vanguardia en tareas de navegación guiada por lenguaje orientadas a objetivos, incluyendo REVERIE y SOON, logrando notablemente una tasa de éxito del 50.9% en las divisiones de validación no vistas de SOON, superando a los enfoques líderes anteriores por un margen del 13.9%.
English
Goal-oriented language-guided navigation requires robust exploration
capabilities for agents to navigate to specified goals in unknown environments
without step-by-step instructions. Existing methods tend to exclusively utilize
shortest-path trajectories, lacking effective exploration priors for training
navigation agents. To address the above challenges, we present SID, a
goal-oriented language-guided navigation learning approach with Self-Improving
Demonstrations. Specifically, SID learns an initial agent on the shortest-path
data sampled from environments and then leverages this agent to generate novel
exploration trajectories. The novel rollouts provide demonstrations with
stronger exploration strategies to train a better agent, which in turn produces
higher-quality agent demonstrations for the next round of training. We show
that this iterative self-improving pipeline readily scales to new environments,
and the resulting demonstrations can be transferred across a variety of
language-guided navigation tasks, elevating the performance ceiling in diverse
goal-oriented navigation tasks. Extensive experiments demonstrate that SID
significantly boosts the exploration capabilities and generalization of
navigation agents. The resulting agent achieves new state-of-the-art
performance on goal-oriented language-guided navigation tasks, including
REVERIE, SOON, notably achieving a 50.9% success rate on the unseen validation
splits of SOON, surpassing the prior leading approaches by a margin of 13.9%.