Doelgericht Taalgestuurd Navigeren Leren met Zelfverbeterende Demonstraties op Schaal
Learning Goal-Oriented Language-Guided Navigation with Self-Improving Demonstrations at Scale
September 29, 2025
Auteurs: Songze Li, Zun Wang, Gengze Zhou, Jialu Li, Xiangyu Zeng, Limin Wang, Yu Qiao, Qi Wu, Mohit Bansal, Yi Wang
cs.AI
Samenvatting
Doelgericht taalgestuurd navigeren vereist robuuste verkenningscapaciteiten
voor agents om naar gespecificeerde doelen te navigeren in onbekende omgevingen
zonder stap-voor-stap instructies. Bestaande methoden neigen ernaar uitsluitend
kortste-pad trajecten te gebruiken, waarbij effectieve verkenningsprioriteiten
ontbreken voor het trainen van navigatieagents. Om deze uitdagingen aan te
pakken, presenteren we SID, een doelgericht taalgestuurd navigatieleerbenadering
met Zelf-Verbeterende Demonstraties. Specifiek leert SID een initieel agent op
de kortste-pad data die uit omgevingen is bemonsterd en gebruikt vervolgens dit
agent om nieuwe verkenningspaden te genereren. De nieuwe rollouts bieden
demonstraties met sterkere verkenningsstrategieën om een beter agent te trainen,
dat op zijn beurt weer demonstraties van hogere kwaliteit produceert voor de
volgende trainingsronde. We laten zien dat deze iteratieve zelfverbeterende
pipeline gemakkelijk schaalt naar nieuwe omgevingen, en dat de resulterende
demonstraties kunnen worden overgedragen naar een verscheidenheid aan
taalgestuurde navigatietaken, waardoor de prestatiegrens in diverse
doelgerichte navigatietaken wordt verhoogd. Uitgebreide experimenten tonen aan
dat SID de verkenningscapaciteiten en generalisatie van navigatieagents
aanzienlijk verbetert. Het resulterende agent behaalt nieuwe state-of-the-art
prestaties op doelgerichte taalgestuurde navigatietaken, waaronder REVERIE, SOON,
met name een slagingspercentage van 50,9% op de onbekende validatiesplits van
SOON, waarmee het de voorgaande leidende benaderingen met een marge van 13,9%
overtreft.
English
Goal-oriented language-guided navigation requires robust exploration
capabilities for agents to navigate to specified goals in unknown environments
without step-by-step instructions. Existing methods tend to exclusively utilize
shortest-path trajectories, lacking effective exploration priors for training
navigation agents. To address the above challenges, we present SID, a
goal-oriented language-guided navigation learning approach with Self-Improving
Demonstrations. Specifically, SID learns an initial agent on the shortest-path
data sampled from environments and then leverages this agent to generate novel
exploration trajectories. The novel rollouts provide demonstrations with
stronger exploration strategies to train a better agent, which in turn produces
higher-quality agent demonstrations for the next round of training. We show
that this iterative self-improving pipeline readily scales to new environments,
and the resulting demonstrations can be transferred across a variety of
language-guided navigation tasks, elevating the performance ceiling in diverse
goal-oriented navigation tasks. Extensive experiments demonstrate that SID
significantly boosts the exploration capabilities and generalization of
navigation agents. The resulting agent achieves new state-of-the-art
performance on goal-oriented language-guided navigation tasks, including
REVERIE, SOON, notably achieving a 50.9% success rate on the unseen validation
splits of SOON, surpassing the prior leading approaches by a margin of 13.9%.