FLOWER: Democratisering van algemene robotbeleidsregels met efficiënte visie-taal-actie stroombeleidsregels
FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies
September 5, 2025
Auteurs: Moritz Reuss, Hongyi Zhou, Marcel Rühle, Ömer Erdinç Yağmurlu, Fabian Otto, Rudolf Lioutikov
cs.AI
Samenvatting
Het ontwikkelen van efficiënte Vision-Language-Action (VLA)-beleidsmodellen is cruciaal voor praktische robotica-implementatie, maar huidige benaderingen kampen met onhoudbare rekenkosten en resourcevereisten. Bestaande op diffusie gebaseerde VLA-beleidsmodellen vereisen modellen met miljarden parameters en enorme datasets om sterke prestaties te behalen. Wij pakken deze efficiëntie-uitdaging aan met twee bijdragen: intermediaire-modaliteitsfusie, die capaciteit herverdeelt naar de diffusiekop door tot 50% van de LLM-lagen te snoeien, en actiespecifieke Global-AdaLN-conditionering, die het aantal parameters met 20% vermindert door modulaire aanpassing. We integreren deze vooruitgang in een nieuw 950 M-parameter VLA-model genaamd FLOWER. Na slechts 200 H100 GPU-uren vooraf getraind, levert FLOWER competitieve prestaties met grotere VLA-modellen over 190 taken die tien simulatie- en real-world benchmarks omvatten, en toont het robuustheid over diverse robotische uitvoeringen. Daarnaast behaalt FLOWER een nieuwe state-of-the-art (SoTA) score van 4.53 op de CALVIN ABC-benchmark. Demo's, code en vooraf getrainde gewichten zijn beschikbaar op https://intuitive-robots.github.io/flower_vla/.
English
Developing efficient Vision-Language-Action (VLA) policies is crucial for
practical robotics deployment, yet current approaches face prohibitive
computational costs and resource requirements. Existing diffusion-based VLA
policies require multi-billion-parameter models and massive datasets to achieve
strong performance. We tackle this efficiency challenge with two contributions:
intermediate-modality fusion, which reallocates capacity to the diffusion head
by pruning up to 50% of LLM layers, and action-specific Global-AdaLN
conditioning, which cuts parameters by 20% through modular adaptation. We
integrate these advances into a novel 950 M-parameter VLA called FLOWER.
Pretrained in just 200 H100 GPU hours, FLOWER delivers competitive performance
with bigger VLAs across 190 tasks spanning ten simulation and real-world
benchmarks and demonstrates robustness across diverse robotic embodiments. In
addition, FLOWER achieves a new SoTA of 4.53 on the CALVIN ABC benchmark.
Demos, code and pretrained weights are available at
https://intuitive-robots.github.io/flower_vla/.