ChatPaper.aiChatPaper

Amorçage de l'apprentissage de la navigation guidée par le langage avec un volant d'auto-affinage des données.

Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel

December 11, 2024
Auteurs: Zun Wang, Jialu Li, Yicong Hong, Songze Li, Kunchang Li, Shoubin Yu, Yi Wang, Yu Qiao, Yali Wang, Mohit Bansal, Limin Wang
cs.AI

Résumé

La création de données de haute qualité pour entraîner des agents d'apprentissage guidés par la langue robustes est un défi de longue date en intelligence artificielle incarnée. Dans cet article, nous présentons un Mécanisme de Raffinement de Données Autonome (SRDF) qui génère des paires d'instructions de navigation-trajectoire de haute qualité et à grande échelle en affinant de manière itérative le pool de données grâce à la collaboration entre deux modèles, le générateur d'instructions et le navigateur, sans aucune annotation humaine en boucle. Plus précisément, le SRDF commence par utiliser un générateur de base pour créer un pool de données initial afin d'entraîner un navigateur de base, puis en appliquant le navigateur entraîné pour filtrer le pool de données. Cela conduit à des données de meilleure qualité pour entraîner un meilleur générateur, qui peut à son tour produire des données de haute qualité pour entraîner le navigateur de la prochaine itération. Un tel mécanisme établit un processus d'autoraffinement des données, produisant un ensemble de données continuellement amélioré et hautement efficace pour l'apprentissage de la navigation guidée par le langage à grande échelle. Nos expériences montrent qu'après plusieurs itérations du mécanisme, le navigateur élève la limite de performance de 70% à 78% SPL sur l'ensemble de test R2R classique, dépassant pour la première fois la performance humaine (76%). Parallèlement, ce processus conduit à un générateur supérieur, comme en témoigne une augmentation du score SPICE de 23,5 à 26,2, meilleur que toutes les méthodes précédentes de génération d'instructions VLN. Enfin, nous démontrons la scalabilité de notre méthode en augmentant la diversité de l'environnement et des instructions, ainsi que la capacité de généralisation de notre navigateur pré-entraîné sur diverses tâches de navigation en aval, dépassant de loin les méthodes de pointe dans tous les cas.
English
Creating high-quality data for training robust language-instructed agents is a long-lasting challenge in embodied AI. In this paper, we introduce a Self-Refining Data Flywheel (SRDF) that generates high-quality and large-scale navigational instruction-trajectory pairs by iteratively refining the data pool through the collaboration between two models, the instruction generator and the navigator, without any human-in-the-loop annotation. Specifically, SRDF starts with using a base generator to create an initial data pool for training a base navigator, followed by applying the trained navigator to filter the data pool. This leads to higher-fidelity data to train a better generator, which can, in turn, produce higher-quality data for training the next-round navigator. Such a flywheel establishes a data self-refining process, yielding a continuously improved and highly effective dataset for large-scale language-guided navigation learning. Our experiments demonstrate that after several flywheel rounds, the navigator elevates the performance boundary from 70% to 78% SPL on the classic R2R test set, surpassing human performance (76%) for the first time. Meanwhile, this process results in a superior generator, evidenced by a SPICE increase from 23.5 to 26.2, better than all previous VLN instruction generation methods. Finally, we demonstrate the scalability of our method through increasing environment and instruction diversity, and the generalization ability of our pre-trained navigator across various downstream navigation tasks, surpassing state-of-the-art methods by a large margin in all cases.

Summary

AI-Generated Summary

PDF52December 12, 2024