π-StepNFT: フローベースVLAのオンライン強化学習における広い空間には細かいステップが必要
π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs
March 2, 2026
著者: Siting Wang, Xiaofeng Wang, Zheng Zhu, Minnan Pei, Xinyu Cui, Cheng Deng, Jian Zhao, Guan Huang, Haifeng Zhang, Jun Wang
cs.AI
要旨
Flow-based視覚言語行動(VLA)モデルは、具現化制御において優れた性能を発揮するが、多段階サンプリング時に扱いにくい尤度が生じ、オンライン強化学習を妨げる課題がある。本研究では、最適化ステップごとに単一のフォワードパスのみを必要とし、補助的な価値ネットワークを排除する、批評家および尤度不要のフレームワーク「boldsymbolπ-StepNFT」(段階的ネガティブ認識ファインチューニング)を提案する。我々は、より広い探索空間では、整合性のためのよりきめ細かい段階的ガイダンスが必要であることを明らかにした。実験では、π-StepNFTがLIBEROにおいて潜在能力を解放し、競争力のある少数ショット頑健性を達成した。さらに、ManiSkillにおいて優れた一般化性能を実現し、マルチモーダル特徴への過適合を防ぐことで、OODシナリオで価値ベースのベースラインを上回った。この特性は、複雑な実世界応用に向けたスケーラブルなソリューションとして有望である。
English
Flow-based vision-language-action (VLA) models excel in embodied control but suffer from intractable likelihoods during multi-step sampling, hindering online reinforcement learning. We propose \textit{boldsymbolπ-StepNFT} (Step-wise Negative-aware Fine-Tuning), a critic-and-likelihood-free framework that requires only a single forward pass per optimization step and eliminates auxiliary value networks. We identify that wider exploration spaces necessitate finer-grained, step-wise guidance for alignment. Empirically, π-StepNFT unlocks latent potential on LIBERO with competitive few-shot robustness. Moreover, it achieves superior generalization on ManiSkill, outperforming value-based baselines in OOD scenarios by preventing overfitting to multimodal features. This property offers a scalable solution promising for complex real-world applications.