Apprentissage de la Navigation Guidée par le Langage Orientée vers un Objectif avec des Démonstrations d'Auto-Amélioration à Grande Échelle
Learning Goal-Oriented Language-Guided Navigation with Self-Improving Demonstrations at Scale
September 29, 2025
papers.authors: Songze Li, Zun Wang, Gengze Zhou, Jialu Li, Xiangyu Zeng, Limin Wang, Yu Qiao, Qi Wu, Mohit Bansal, Yi Wang
cs.AI
papers.abstract
La navigation guidée par le langage et orientée vers un objectif nécessite des capacités d'exploration robustes pour que les agents puissent se déplacer vers des cibles spécifiées dans des environnements inconnus sans instructions étape par étape. Les méthodes existantes ont tendance à utiliser exclusivement des trajectoires de plus court chemin, manquant de préalables d'exploration efficaces pour entraîner les agents de navigation. Pour relever ces défis, nous présentons SID, une approche d'apprentissage de la navigation guidée par le langage et orientée vers un objectif avec des Démonstrations Auto-Améliorantes. Concrètement, SID apprend un agent initial sur des données de plus court chemin échantillonnées dans les environnements, puis exploite cet agent pour générer de nouvelles trajectoires d'exploration. Ces nouvelles trajectoires fournissent des démonstrations avec des stratégies d'exploration plus solides pour entraîner un meilleur agent, qui à son tour produit des démonstrations de meilleure qualité pour le prochain cycle d'entraînement. Nous montrons que ce pipeline itératif d'auto-amélioration s'adapte facilement à de nouveaux environnements, et que les démonstrations résultantes peuvent être transférées à travers une variété de tâches de navigation guidée par le langage, élevant le plafond de performance dans diverses tâches de navigation orientée vers un objectif. Des expériences approfondies démontrent que SID améliore significativement les capacités d'exploration et la généralisation des agents de navigation. L'agent résultant atteint de nouvelles performances de pointe dans les tâches de navigation guidée par le langage et orientée vers un objectif, notamment REVERIE et SOON, atteignant un taux de réussite de 50,9 % sur les ensembles de validation inédits de SOON, surpassant les approches précédentes de 13,9 %.
English
Goal-oriented language-guided navigation requires robust exploration
capabilities for agents to navigate to specified goals in unknown environments
without step-by-step instructions. Existing methods tend to exclusively utilize
shortest-path trajectories, lacking effective exploration priors for training
navigation agents. To address the above challenges, we present SID, a
goal-oriented language-guided navigation learning approach with Self-Improving
Demonstrations. Specifically, SID learns an initial agent on the shortest-path
data sampled from environments and then leverages this agent to generate novel
exploration trajectories. The novel rollouts provide demonstrations with
stronger exploration strategies to train a better agent, which in turn produces
higher-quality agent demonstrations for the next round of training. We show
that this iterative self-improving pipeline readily scales to new environments,
and the resulting demonstrations can be transferred across a variety of
language-guided navigation tasks, elevating the performance ceiling in diverse
goal-oriented navigation tasks. Extensive experiments demonstrate that SID
significantly boosts the exploration capabilities and generalization of
navigation agents. The resulting agent achieves new state-of-the-art
performance on goal-oriented language-guided navigation tasks, including
REVERIE, SOON, notably achieving a 50.9% success rate on the unseen validation
splits of SOON, surpassing the prior leading approaches by a margin of 13.9%.