自己改善型デモンストレーションを大規模に活用した目標指向型言語誘導ナビゲーションの学習
Learning Goal-Oriented Language-Guided Navigation with Self-Improving Demonstrations at Scale
September 29, 2025
著者: Songze Li, Zun Wang, Gengze Zhou, Jialu Li, Xiangyu Zeng, Limin Wang, Yu Qiao, Qi Wu, Mohit Bansal, Yi Wang
cs.AI
要旨
目標指向型言語誘導ナビゲーションでは、エージェントが未知の環境においてステップバイステップの指示なしに指定された目標に到達するための堅牢な探索能力が求められる。既存の手法は最短経路軌道に偏りがちで、ナビゲーションエージェントの訓練に有効な探索の事前知識を欠いている。これらの課題に対処するため、我々は自己改善デモンストレーションを備えた目標指向型言語誘導ナビゲーション学習手法「SID」を提案する。具体的には、SIDは環境からサンプリングされた最短経路データを用いて初期エージェントを学習し、その後、このエージェントを活用して新たな探索軌道を生成する。これらの新たな軌道は、より強力な探索戦略を備えたデモンストレーションを提供し、より優れたエージェントを訓練する。このエージェントは次なる訓練ラウンドに向けて、さらに高品質なデモンストレーションを生成する。我々は、この反復的な自己改善パイプラインが新たな環境に容易にスケールし、生成されたデモンストレーションが様々な言語誘導ナビゲーションタスク間で転移可能であることを示す。これにより、多様な目標指向型ナビゲーションタスクにおける性能の上限が引き上げられる。大規模な実験により、SIDがナビゲーションエージェントの探索能力と汎化性能を大幅に向上させることが実証された。結果として得られたエージェントは、REVERIEやSOONなどの目標指向型言語誘導ナビゲーションタスクにおいて新たな最先端の性能を達成し、特にSOONの未見の検証データセットにおいて50.9%の成功率を記録し、従来の主要な手法を13.9%の差で上回った。
English
Goal-oriented language-guided navigation requires robust exploration
capabilities for agents to navigate to specified goals in unknown environments
without step-by-step instructions. Existing methods tend to exclusively utilize
shortest-path trajectories, lacking effective exploration priors for training
navigation agents. To address the above challenges, we present SID, a
goal-oriented language-guided navigation learning approach with Self-Improving
Demonstrations. Specifically, SID learns an initial agent on the shortest-path
data sampled from environments and then leverages this agent to generate novel
exploration trajectories. The novel rollouts provide demonstrations with
stronger exploration strategies to train a better agent, which in turn produces
higher-quality agent demonstrations for the next round of training. We show
that this iterative self-improving pipeline readily scales to new environments,
and the resulting demonstrations can be transferred across a variety of
language-guided navigation tasks, elevating the performance ceiling in diverse
goal-oriented navigation tasks. Extensive experiments demonstrate that SID
significantly boosts the exploration capabilities and generalization of
navigation agents. The resulting agent achieves new state-of-the-art
performance on goal-oriented language-guided navigation tasks, including
REVERIE, SOON, notably achieving a 50.9% success rate on the unseen validation
splits of SOON, surpassing the prior leading approaches by a margin of 13.9%.