ChatPaper.aiChatPaper

FLOWER:効率的な視覚-言語-行動フローポリシーによる汎用ロボットポリシーの民主化

FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

September 5, 2025
著者: Moritz Reuss, Hongyi Zhou, Marcel Rühle, Ömer Erdinç Yağmurlu, Fabian Otto, Rudolf Lioutikov
cs.AI

要旨

効率的なVision-Language-Action(VLA)ポリシーの開発は、実用的なロボティクス展開において重要であるが、現在のアプローチでは計算コストとリソース要件が過大である。既存の拡散ベースのVLAポリシーは、強力な性能を達成するために数十億パラメータのモデルと大規模なデータセットを必要とする。本論文では、この効率性の課題に取り組むため、2つの貢献を行う。第一に、中間モダリティ融合を提案し、LLM層の最大50%をプルーニングすることで、拡散ヘッドに容量を再配分する。第二に、アクション固有のGlobal-AdaLN条件付けを導入し、モジュール適応によりパラメータを20%削減する。これらの進歩を統合し、950Mパラメータの新規VLA「FLOWER」を開発した。わずか200 H100 GPU時間で事前学習されたFLOWERは、10のシミュレーションおよび実世界ベンチマークにわたる190のタスクにおいて、より大規模なVLAと競争力のある性能を発揮し、多様なロボット形態における堅牢性を実証する。さらに、FLOWERはCALVIN ABCベンチマークで4.53の新たなSoTAを達成した。デモ、コード、および事前学習済みの重みはhttps://intuitive-robots.github.io/flower_vla/で公開されている。
English
Developing efficient Vision-Language-Action (VLA) policies is crucial for practical robotics deployment, yet current approaches face prohibitive computational costs and resource requirements. Existing diffusion-based VLA policies require multi-billion-parameter models and massive datasets to achieve strong performance. We tackle this efficiency challenge with two contributions: intermediate-modality fusion, which reallocates capacity to the diffusion head by pruning up to 50% of LLM layers, and action-specific Global-AdaLN conditioning, which cuts parameters by 20% through modular adaptation. We integrate these advances into a novel 950 M-parameter VLA called FLOWER. Pretrained in just 200 H100 GPU hours, FLOWER delivers competitive performance with bigger VLAs across 190 tasks spanning ten simulation and real-world benchmarks and demonstrates robustness across diverse robotic embodiments. In addition, FLOWER achieves a new SoTA of 4.53 on the CALVIN ABC benchmark. Demos, code and pretrained weights are available at https://intuitive-robots.github.io/flower_vla/.
PDF133September 15, 2025