ChatPaper.aiChatPaper

JARVIS-VLA: 大規模視覚言語モデルのポストトレーニングによるキーボードとマウスを使った視覚ゲームプレイ

JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse

March 20, 2025
著者: Muyao Li, Zihao Wang, Kaichen He, Xiaojian Ma, Yitao Liang
cs.AI

要旨

近年、オープンワールド環境における行動ベースの意思決定が注目を集めています。大規模なウェブデータセットで事前学習されたVisual Language Action(VLA)モデルは、意思決定タスクにおいて有望な成果を示しています。しかし、従来の研究は主に行動の事後学習に焦点を当てており、基礎モデル自体の強化をしばしば見落としていました。これに対応して、我々は「Act from Visual Language Post-Training」という新しいアプローチを提案します。これは、視覚的および言語的ガイダンスを用いて自己教師あり方式でVisual Language Models(VLMs)を改良するものです。この強化により、オープンワールド環境における世界知識、視覚認識、空間的基盤付けの能力が向上します。上記の事後学習パラダイムに従い、我々はMinecraftにおいて1,000以上の異なるアトミックタスク(クラフト、精錬、調理、採掘、殺害など)で人間の指示に従うことができる初のVLAモデルを獲得しました。実験結果は、非軌道タスクでの事後学習が、多様なアトミックタスクにおいて最良のエージェントベースラインを40%上回る大幅な改善をもたらすことを示しています。さらに、我々のアプローチがMinecraftにおける従来の模倣学習ベースのポリシーを凌駕し、最先端の性能を達成することを実証しました。研究のさらなる進展を促進するため、コード、モデル、データセットをオープンソース化しました。プロジェクトページはhttps://craftjarvis.github.io/JarvisVLAでご覧いただけます。
English
Recently, action-based decision-making in open-world environments has gained significant attention. Visual Language Action (VLA) models, pretrained on large-scale web datasets, have shown promise in decision-making tasks. However, previous work has primarily focused on action post-training, often neglecting enhancements to the foundational model itself. In response, we introduce a novel approach, Act from Visual Language Post-Training, which refines Visual Language Models (VLMs) through visual and linguistic guidance in a self-supervised manner. This enhancement improves the models' capabilities in world knowledge, visual recognition, and spatial grounding in open-world environments. Following the above post-training paradigms, we obtain the first VLA models in Minecraft that can follow human instructions on over 1k different atomic tasks, including crafting, smelting, cooking, mining, and killing. Our experiments demonstrate that post-training on non-trajectory tasks leads to a significant 40% improvement over the best agent baseline on a diverse set of atomic tasks. Furthermore, we demonstrate that our approach surpasses traditional imitation learning-based policies in Minecraft, achieving state-of-the-art performance. We have open-sourced the code, models, and datasets to foster further research. The project page can be found in https://craftjarvis.github.io/JarvisVLA.

Summary

AI-Generated Summary

PDF402March 21, 2025