ChatPaper.aiChatPaper

FLOWER: Democratisering van algemene robotbeleidsregels met efficiënte visie-taal-actie stroombeleidsregels

FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

September 5, 2025
Auteurs: Moritz Reuss, Hongyi Zhou, Marcel Rühle, Ömer Erdinç Yağmurlu, Fabian Otto, Rudolf Lioutikov
cs.AI

Samenvatting

Het ontwikkelen van efficiënte Vision-Language-Action (VLA)-beleidsmodellen is cruciaal voor praktische robotica-implementatie, maar huidige benaderingen kampen met onhoudbare rekenkosten en resourcevereisten. Bestaande op diffusie gebaseerde VLA-beleidsmodellen vereisen modellen met miljarden parameters en enorme datasets om sterke prestaties te behalen. Wij pakken deze efficiëntie-uitdaging aan met twee bijdragen: intermediaire-modaliteitsfusie, die capaciteit herverdeelt naar de diffusiekop door tot 50% van de LLM-lagen te snoeien, en actiespecifieke Global-AdaLN-conditionering, die het aantal parameters met 20% vermindert door modulaire aanpassing. We integreren deze vooruitgang in een nieuw 950 M-parameter VLA-model genaamd FLOWER. Na slechts 200 H100 GPU-uren vooraf getraind, levert FLOWER competitieve prestaties met grotere VLA-modellen over 190 taken die tien simulatie- en real-world benchmarks omvatten, en toont het robuustheid over diverse robotische uitvoeringen. Daarnaast behaalt FLOWER een nieuwe state-of-the-art (SoTA) score van 4.53 op de CALVIN ABC-benchmark. Demo's, code en vooraf getrainde gewichten zijn beschikbaar op https://intuitive-robots.github.io/flower_vla/.
English
Developing efficient Vision-Language-Action (VLA) policies is crucial for practical robotics deployment, yet current approaches face prohibitive computational costs and resource requirements. Existing diffusion-based VLA policies require multi-billion-parameter models and massive datasets to achieve strong performance. We tackle this efficiency challenge with two contributions: intermediate-modality fusion, which reallocates capacity to the diffusion head by pruning up to 50% of LLM layers, and action-specific Global-AdaLN conditioning, which cuts parameters by 20% through modular adaptation. We integrate these advances into a novel 950 M-parameter VLA called FLOWER. Pretrained in just 200 H100 GPU hours, FLOWER delivers competitive performance with bigger VLAs across 190 tasks spanning ten simulation and real-world benchmarks and demonstrates robustness across diverse robotic embodiments. In addition, FLOWER achieves a new SoTA of 4.53 on the CALVIN ABC benchmark. Demos, code and pretrained weights are available at https://intuitive-robots.github.io/flower_vla/.
PDF133September 15, 2025