Aprendizado de Navegação Orientada a Objetivos com Linguagem e Demonstrações de Autoaprimoramento em Escala
Learning Goal-Oriented Language-Guided Navigation with Self-Improving Demonstrations at Scale
September 29, 2025
Autores: Songze Li, Zun Wang, Gengze Zhou, Jialu Li, Xiangyu Zeng, Limin Wang, Yu Qiao, Qi Wu, Mohit Bansal, Yi Wang
cs.AI
Resumo
A navegação guiada por linguagem orientada a objetivos requer capacidades robustas de exploração para que os agentes naveguem até metas especificadas em ambientes desconhecidos sem instruções passo a passo. Os métodos existentes tendem a utilizar exclusivamente trajetórias de caminho mais curto, carecendo de prioridades de exploração eficazes para treinar agentes de navegação. Para enfrentar esses desafios, apresentamos o SID, uma abordagem de aprendizado de navegação guiada por linguagem orientada a objetivos com Demonstrações de Auto-Melhoria. Especificamente, o SID aprende um agente inicial com base em dados de caminho mais curto amostrados dos ambientes e, em seguida, utiliza esse agente para gerar trajetórias de exploração inéditas. As novas execuções fornecem demonstrações com estratégias de exploração mais robustas para treinar um agente melhor, que, por sua vez, produz demonstrações de agente de maior qualidade para a próxima rodada de treinamento. Mostramos que esse pipeline iterativo de auto-melhoria se escala facilmente para novos ambientes, e as demonstrações resultantes podem ser transferidas para uma variedade de tarefas de navegação guiada por linguagem, elevando o limite de desempenho em diversas tarefas de navegação orientada a objetivos. Experimentos extensivos demonstram que o SID aumenta significativamente as capacidades de exploração e a generalização dos agentes de navegação. O agente resultante alcança um novo desempenho de ponta em tarefas de navegação guiada por linguagem orientada a objetivos, incluindo REVERIE e SOON, atingindo notavelmente uma taxa de sucesso de 50,9% nas divisões de validação não vistas do SOON, superando as abordagens líderes anteriores por uma margem de 13,9%.
English
Goal-oriented language-guided navigation requires robust exploration
capabilities for agents to navigate to specified goals in unknown environments
without step-by-step instructions. Existing methods tend to exclusively utilize
shortest-path trajectories, lacking effective exploration priors for training
navigation agents. To address the above challenges, we present SID, a
goal-oriented language-guided navigation learning approach with Self-Improving
Demonstrations. Specifically, SID learns an initial agent on the shortest-path
data sampled from environments and then leverages this agent to generate novel
exploration trajectories. The novel rollouts provide demonstrations with
stronger exploration strategies to train a better agent, which in turn produces
higher-quality agent demonstrations for the next round of training. We show
that this iterative self-improving pipeline readily scales to new environments,
and the resulting demonstrations can be transferred across a variety of
language-guided navigation tasks, elevating the performance ceiling in diverse
goal-oriented navigation tasks. Extensive experiments demonstrate that SID
significantly boosts the exploration capabilities and generalization of
navigation agents. The resulting agent achieves new state-of-the-art
performance on goal-oriented language-guided navigation tasks, including
REVERIE, SOON, notably achieving a 50.9% success rate on the unseen validation
splits of SOON, surpassing the prior leading approaches by a margin of 13.9%.