Lernzielorientierte, sprachgesteuerte Navigation mit selbstverbessernden Demonstrationen im großen Maßstab
Learning Goal-Oriented Language-Guided Navigation with Self-Improving Demonstrations at Scale
September 29, 2025
papers.authors: Songze Li, Zun Wang, Gengze Zhou, Jialu Li, Xiangyu Zeng, Limin Wang, Yu Qiao, Qi Wu, Mohit Bansal, Yi Wang
cs.AI
papers.abstract
Zielorientierte, sprachgesteuerte Navigation erfordert robuste Explorationsfähigkeiten, damit Agenten in unbekannten Umgebungen zu spezifizierten Zielen navigieren können, ohne Schritt-für-Schritt-Anweisungen. Bestehende Methoden neigen dazu, ausschließlich kürzeste Pfad-Trajektorien zu nutzen, wodurch effektive Explorationspriors für das Training von Navigationsagenten fehlen. Um diese Herausforderungen zu bewältigen, präsentieren wir SID, einen zielorientierten, sprachgesteuerten Navigationsansatz mit Selbstverbessernden Demonstrationen. Konkret lernt SID zunächst einen Agenten anhand von Daten kürzester Pfade, die aus Umgebungen stammen, und nutzt diesen Agenten dann, um neuartige Explorationstrajektorien zu generieren. Diese neuartigen Rollouts liefern Demonstrationen mit stärkeren Explorationsstrategien, um einen besseren Agenten zu trainieren, der wiederum höherwertige Agentendemonstrationen für die nächste Trainingsrunde erzeugt. Wir zeigen, dass diese iterative, selbstverbessernde Pipeline problemlos auf neue Umgebungen skaliert werden kann und dass die resultierenden Demonstrationen über eine Vielzahl von sprachgesteuerten Navigationsaufgaben übertragen werden können, wodurch die Leistungsgrenze in diversen zielorientierten Navigationsaufgaben angehoben wird. Umfangreiche Experimente belegen, dass SID die Explorationsfähigkeiten und die Generalisierung von Navigationsagenten signifikant steigert. Der resultierende Agent erreicht neue State-of-the-Art-Leistungen in zielorientierten, sprachgesteuerten Navigationsaufgaben, einschließlich REVERIE und SOON, und erzielt dabei eine Erfolgsrate von 50,9 % auf den ungesehenen Validierungs-Splits von SOON, was die bisher führenden Ansätze um 13,9 % übertrifft.
English
Goal-oriented language-guided navigation requires robust exploration
capabilities for agents to navigate to specified goals in unknown environments
without step-by-step instructions. Existing methods tend to exclusively utilize
shortest-path trajectories, lacking effective exploration priors for training
navigation agents. To address the above challenges, we present SID, a
goal-oriented language-guided navigation learning approach with Self-Improving
Demonstrations. Specifically, SID learns an initial agent on the shortest-path
data sampled from environments and then leverages this agent to generate novel
exploration trajectories. The novel rollouts provide demonstrations with
stronger exploration strategies to train a better agent, which in turn produces
higher-quality agent demonstrations for the next round of training. We show
that this iterative self-improving pipeline readily scales to new environments,
and the resulting demonstrations can be transferred across a variety of
language-guided navigation tasks, elevating the performance ceiling in diverse
goal-oriented navigation tasks. Extensive experiments demonstrate that SID
significantly boosts the exploration capabilities and generalization of
navigation agents. The resulting agent achieves new state-of-the-art
performance on goal-oriented language-guided navigation tasks, including
REVERIE, SOON, notably achieving a 50.9% success rate on the unseen validation
splits of SOON, surpassing the prior leading approaches by a margin of 13.9%.