自己改善データフライホイールを用いた言語によるナビゲーション学習のブートストラップ化
Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel
December 11, 2024
著者: Zun Wang, Jialu Li, Yicong Hong, Songze Li, Kunchang Li, Shoubin Yu, Yi Wang, Yu Qiao, Yali Wang, Mohit Bansal, Limin Wang
cs.AI
要旨
言語指示型エージェントの訓練用の高品質データを作成することは、具体的なAIにおける長年の課題です。本論文では、人間を介さないアノテーションを通じて、指示生成器とナビゲータの協力により、データプールを反復的に洗練することで高品質かつ大規模な航法指示-軌跡ペアを生成するSelf-Refining Data Flywheel(SRDF)を紹介します。具体的には、SRDFは、ベースジェネレータを使用して初期データプールを作成し、ベースナビゲータの訓練に使用し、訓練されたナビゲータをデータプールのフィルタリングに適用することから始まります。これにより、より高い忠実度のデータが得られ、より優れたジェネレータを訓練するためのデータが生成され、その結果、次のラウンドのナビゲータの訓練に使用できるより高品質のデータが生成されます。このようなフライホイールは、データの自己洗練プロセスを確立し、大規模な言語によるナビゲーション学習のための継続的に改善された非常に効果的なデータセットを生み出します。実験では、数回のフライホイールの後、ナビゲータはクラシックなR2Rテストセットでの性能基準を70%から78% SPLに引き上げ、人間のパフォーマンス(76%)を初めて上回りました。同時に、このプロセスにより、SPICEが23.5から26.2に増加し、これまでのすべてのVLN指示生成方法よりも優れたジェネレータが得られました。最後に、環境と指示の多様性を増やすことによる我々の手法のスケーラビリティと、様々な下流ナビゲーションタスクでの事前訓練済みナビゲータの汎化能力を示し、すべてのケースで従来の手法を大きく上回る結果を達成しました。
English
Creating high-quality data for training robust language-instructed agents is
a long-lasting challenge in embodied AI. In this paper, we introduce a
Self-Refining Data Flywheel (SRDF) that generates high-quality and large-scale
navigational instruction-trajectory pairs by iteratively refining the data pool
through the collaboration between two models, the instruction generator and the
navigator, without any human-in-the-loop annotation. Specifically, SRDF starts
with using a base generator to create an initial data pool for training a base
navigator, followed by applying the trained navigator to filter the data pool.
This leads to higher-fidelity data to train a better generator, which can, in
turn, produce higher-quality data for training the next-round navigator. Such a
flywheel establishes a data self-refining process, yielding a continuously
improved and highly effective dataset for large-scale language-guided
navigation learning. Our experiments demonstrate that after several flywheel
rounds, the navigator elevates the performance boundary from 70% to 78% SPL on
the classic R2R test set, surpassing human performance (76%) for the first
time. Meanwhile, this process results in a superior generator, evidenced by a
SPICE increase from 23.5 to 26.2, better than all previous VLN instruction
generation methods. Finally, we demonstrate the scalability of our method
through increasing environment and instruction diversity, and the
generalization ability of our pre-trained navigator across various downstream
navigation tasks, surpassing state-of-the-art methods by a large margin in all
cases.Summary
AI-Generated Summary