ChatPaper.aiChatPaper

Opstarten van taalgestuurde navigatie-leren met zelfverfijnende gegevensvliegwiel

Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel

December 11, 2024
Auteurs: Zun Wang, Jialu Li, Yicong Hong, Songze Li, Kunchang Li, Shoubin Yu, Yi Wang, Yu Qiao, Yali Wang, Mohit Bansal, Limin Wang
cs.AI

Samenvatting

Het creëren van hoogwaardige gegevens voor het trainen van robuuste taalinstructie-agenten is een langdurige uitdaging in embodied AI. In dit artikel introduceren we een Self-Refining Data Flywheel (SRDF) dat hoogwaardige en grootschalige navigatie-instructie-trajectparen genereert door iteratief de gegevenspool te verfijnen via de samenwerking tussen twee modellen, de instructiegenerator en de navigator, zonder enige menselijke annotatie in het proces. Specifiek begint SRDF met het gebruik van een basismodel om een initiële gegevenspool te creëren voor het trainen van een basenavigator, gevolgd door het toepassen van de getrainde navigator om de gegevenspool te filteren. Dit leidt tot gegevens van hogere kwaliteit om een betere generator te trainen, die op zijn beurt weer hoogwaardige gegevens kan produceren voor het trainen van de navigator in de volgende ronde. Zo'n vliegwiel vestigt een zelfverfijnend gegevensproces, resulterend in een continu verbeterde en zeer effectieve dataset voor grootschalig taalgestuurd navigatie leren. Onze experimenten tonen aan dat na verschillende rondes van het vliegwiel, de navigator de prestatiegrens verhoogt van 70% naar 78% SPL op de klassieke R2R-testset, waarbij voor het eerst de menselijke prestatie (76%) wordt overtroffen. Tegelijkertijd resulteert dit proces in een superieure generator, aangetoond door een SPICE-toename van 23,5 naar 26,2, beter dan alle eerdere VLN-instructiegeneratiemethoden. Ten slotte demonstreren we de schaalbaarheid van onze methode door de omgeving en instructie diversiteit te vergroten, en de generalisatiecapaciteit van onze vooraf getrainde navigator over verschillende downstream navigatietaken, waarbij in alle gevallen met een grote marge de state-of-the-art methoden worden overtroffen.
English
Creating high-quality data for training robust language-instructed agents is a long-lasting challenge in embodied AI. In this paper, we introduce a Self-Refining Data Flywheel (SRDF) that generates high-quality and large-scale navigational instruction-trajectory pairs by iteratively refining the data pool through the collaboration between two models, the instruction generator and the navigator, without any human-in-the-loop annotation. Specifically, SRDF starts with using a base generator to create an initial data pool for training a base navigator, followed by applying the trained navigator to filter the data pool. This leads to higher-fidelity data to train a better generator, which can, in turn, produce higher-quality data for training the next-round navigator. Such a flywheel establishes a data self-refining process, yielding a continuously improved and highly effective dataset for large-scale language-guided navigation learning. Our experiments demonstrate that after several flywheel rounds, the navigator elevates the performance boundary from 70% to 78% SPL on the classic R2R test set, surpassing human performance (76%) for the first time. Meanwhile, this process results in a superior generator, evidenced by a SPICE increase from 23.5 to 26.2, better than all previous VLN instruction generation methods. Finally, we demonstrate the scalability of our method through increasing environment and instruction diversity, and the generalization ability of our pre-trained navigator across various downstream navigation tasks, surpassing state-of-the-art methods by a large margin in all cases.
PDF62December 12, 2024