ChatPaper.aiChatPaper

Обучение целенаправленной навигации с языковым управлением с использованием самоулучшающихся демонстраций в масштабе

Learning Goal-Oriented Language-Guided Navigation with Self-Improving Demonstrations at Scale

September 29, 2025
Авторы: Songze Li, Zun Wang, Gengze Zhou, Jialu Li, Xiangyu Zeng, Limin Wang, Yu Qiao, Qi Wu, Mohit Bansal, Yi Wang
cs.AI

Аннотация

Навигация, управляемая языковыми целями, требует от агентов надежных способностей к исследованию для достижения заданных целей в неизвестных средах без пошаговых инструкций. Существующие методы, как правило, используют исключительно траектории кратчайшего пути, не имея эффективных априорных данных для обучения агентов навигации. Для решения этих проблем мы представляем SID — подход к обучению навигации, управляемой языковыми целями, с использованием самоулучшающихся демонстраций. В частности, SID обучает начального агента на данных, собранных по кратчайшим путям в средах, а затем использует этого агента для генерации новых исследовательских траекторий. Эти новые траектории предоставляют демонстрации с более сильными стратегиями исследования для обучения улучшенного агента, который, в свою очередь, создает более качественные демонстрации для следующего этапа обучения. Мы показываем, что этот итеративный процесс самоулучшения легко масштабируется на новые среды, а полученные демонстрации могут быть перенесены на различные задачи навигации, управляемой языковыми целями, повышая уровень производительности в разнообразных задачах целевой навигации. Многочисленные эксперименты демонстрируют, что SID значительно улучшает способности к исследованию и обобщению агентов навигации. Полученный агент достигает нового уровня передовой производительности в задачах навигации, управляемой языковыми целями, включая REVERIE и SOON, с успешностью 50,9% на неизвестных валидационных данных SOON, превосходя предыдущие ведущие подходы на 13,9%.
English
Goal-oriented language-guided navigation requires robust exploration capabilities for agents to navigate to specified goals in unknown environments without step-by-step instructions. Existing methods tend to exclusively utilize shortest-path trajectories, lacking effective exploration priors for training navigation agents. To address the above challenges, we present SID, a goal-oriented language-guided navigation learning approach with Self-Improving Demonstrations. Specifically, SID learns an initial agent on the shortest-path data sampled from environments and then leverages this agent to generate novel exploration trajectories. The novel rollouts provide demonstrations with stronger exploration strategies to train a better agent, which in turn produces higher-quality agent demonstrations for the next round of training. We show that this iterative self-improving pipeline readily scales to new environments, and the resulting demonstrations can be transferred across a variety of language-guided navigation tasks, elevating the performance ceiling in diverse goal-oriented navigation tasks. Extensive experiments demonstrate that SID significantly boosts the exploration capabilities and generalization of navigation agents. The resulting agent achieves new state-of-the-art performance on goal-oriented language-guided navigation tasks, including REVERIE, SOON, notably achieving a 50.9% success rate on the unseen validation splits of SOON, surpassing the prior leading approaches by a margin of 13.9%.
PDF21September 30, 2025