ビジョン・ランゲージ・アクションモデルのためのインタラクティブな事後学習
Interactive Post-Training for Vision-Language-Action Models
May 22, 2025
著者: Shuhan Tan, Kairan Dou, Yue Zhao, Philipp Krähenbühl
cs.AI
要旨
我々はRIPT-VLAを紹介する。これは、事前学習済みのVision-Language-Action(VLA)モデルを、疎な二値的成功報酬のみを用いて微調整する、シンプルでスケーラブルな強化学習ベースのインタラクティブなポストトレーニングパラダイムである。既存のVLAトレーニングパイプラインは、オフラインの専門家によるデモンストレーションデータと教師あり模倣に大きく依存しており、低データ環境下での新しいタスクや環境への適応能力が制限されている。RIPT-VLAは、動的ロールアウトサンプリングとleave-one-outアドバンテージ推定に基づく安定したポリシー最適化アルゴリズムを用いて、インタラクティブなポストトレーニングを可能にすることでこの問題に対処する。
RIPT-VLAには以下の特徴がある。第一に、様々なVLAモデルに適用可能であり、軽量なQueSTモデルの性能を21.2%向上させ、7BのOpenVLA-OFTモデルを前例のない97.5%の成功率に到達させた。第二に、計算効率とデータ効率が高い:たった1つのデモンストレーションで、RIPT-VLAは動作不可能だったSFTモデル(4%)を15回の反復内で97%の成功率で成功させることができる。さらに、RIPT-VLAによって学習されたポリシーは、異なるタスクやシナリオにわたって一般化し、初期状態の文脈に対して頑健であることを実証した。これらの結果は、RIPT-VLAが最小限の監督を通じてVLAモデルをポストトレーニングするための実用的で効果的なパラダイムであることを示している。
English
We introduce RIPT-VLA, a simple and scalable reinforcement-learning-based
interactive post-training paradigm that fine-tunes pretrained
Vision-Language-Action (VLA) models using only sparse binary success rewards.
Existing VLA training pipelines rely heavily on offline expert demonstration
data and supervised imitation, limiting their ability to adapt to new tasks and
environments under low-data regimes. RIPT-VLA addresses this by enabling
interactive post-training with a stable policy optimization algorithm based on
dynamic rollout sampling and leave-one-out advantage estimation.
RIPT-VLA has the following characteristics. First, it applies to various VLA
models, resulting in an improvement on the lightweight QueST model by 21.2%,
and the 7B OpenVLA-OFT model to an unprecedented 97.5% success rate. Second, it
is computationally efficient and data-efficient: with only one demonstration,
RIPT-VLA enables an unworkable SFT model (4%) to succeed with a 97% success
rate within 15 iterations. Furthermore, we demonstrate that the policy learned
by RIPT-VLA generalizes across different tasks and scenarios and is robust to
the initial state context. These results highlight RIPT-VLA as a practical and
effective paradigm for post-training VLA models through minimal supervision.Summary
AI-Generated Summary