Apprendimento della Navigazione Guidata dal Linguaggio Orientata agli Obiettivi con Dimostrazioni di Auto-Miglioramento su Larga Scala
Learning Goal-Oriented Language-Guided Navigation with Self-Improving Demonstrations at Scale
September 29, 2025
Autori: Songze Li, Zun Wang, Gengze Zhou, Jialu Li, Xiangyu Zeng, Limin Wang, Yu Qiao, Qi Wu, Mohit Bansal, Yi Wang
cs.AI
Abstract
La navigazione guidata dal linguaggio orientata agli obiettivi richiede capacità di esplorazione robuste affinché gli agenti possano raggiungere obiettivi specifici in ambienti sconosciuti senza istruzioni passo-passo. I metodi esistenti tendono a utilizzare esclusivamente traiettorie a percorso più breve, mancando di priorità di esplorazione efficaci per l'addestramento degli agenti di navigazione. Per affrontare queste sfide, presentiamo SID, un approccio di apprendimento per la navigazione guidata dal linguaggio orientata agli obiettivi con Dimostrazioni di Auto-Miglioramento. Nello specifico, SID addestra un agente iniziale sui dati a percorso più breve campionati dagli ambienti e poi sfrutta questo agente per generare nuove traiettorie di esplorazione. Queste nuove esecuzioni forniscono dimostrazioni con strategie di esplorazione più forti per addestrare un agente migliore, che a sua volta produce dimostrazioni di qualità superiore per il ciclo di addestramento successivo. Dimostriamo che questa pipeline iterativa di auto-miglioramento si adatta facilmente a nuovi ambienti e che le dimostrazioni risultanti possono essere trasferite a una varietà di compiti di navigazione guidata dal linguaggio, elevando il limite di prestazioni in diverse attività di navigazione orientata agli obiettivi. Esperimenti estensivi dimostrano che SID migliora significativamente le capacità di esplorazione e la generalizzazione degli agenti di navigazione. L'agente risultante raggiunge nuove prestazioni all'avanguardia nei compiti di navigazione guidata dal linguaggio orientata agli obiettivi, inclusi REVERIE e SOON, raggiungendo un tasso di successo del 50,9% sulle suddivisioni di validazione non viste di SOON, superando i precedenti approcci leader di un margine del 13,9%.
English
Goal-oriented language-guided navigation requires robust exploration
capabilities for agents to navigate to specified goals in unknown environments
without step-by-step instructions. Existing methods tend to exclusively utilize
shortest-path trajectories, lacking effective exploration priors for training
navigation agents. To address the above challenges, we present SID, a
goal-oriented language-guided navigation learning approach with Self-Improving
Demonstrations. Specifically, SID learns an initial agent on the shortest-path
data sampled from environments and then leverages this agent to generate novel
exploration trajectories. The novel rollouts provide demonstrations with
stronger exploration strategies to train a better agent, which in turn produces
higher-quality agent demonstrations for the next round of training. We show
that this iterative self-improving pipeline readily scales to new environments,
and the resulting demonstrations can be transferred across a variety of
language-guided navigation tasks, elevating the performance ceiling in diverse
goal-oriented navigation tasks. Extensive experiments demonstrate that SID
significantly boosts the exploration capabilities and generalization of
navigation agents. The resulting agent achieves new state-of-the-art
performance on goal-oriented language-guided navigation tasks, including
REVERIE, SOON, notably achieving a 50.9% success rate on the unseen validation
splits of SOON, surpassing the prior leading approaches by a margin of 13.9%.