FLOR: Democratización de políticas generalistas para robots mediante flujos eficientes de visión-lenguaje-acción
FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies
September 5, 2025
Autores: Moritz Reuss, Hongyi Zhou, Marcel Rühle, Ömer Erdinç Yağmurlu, Fabian Otto, Rudolf Lioutikov
cs.AI
Resumen
El desarrollo de políticas eficientes de Visión-Lenguaje-Acción (VLA) es crucial para la implementación práctica de la robótica, sin embargo, los enfoques actuales enfrentan costos computacionales y requisitos de recursos prohibitivos. Las políticas VLA basadas en difusión existentes requieren modelos con miles de millones de parámetros y conjuntos de datos masivos para alcanzar un rendimiento sólido. Abordamos este desafío de eficiencia con dos contribuciones: la fusión de modalidades intermedias, que reasigna capacidad a la cabeza de difusión mediante la poda de hasta el 50% de las capas del modelo de lenguaje grande (LLM), y el condicionamiento Global-AdaLN específico para acciones, que reduce los parámetros en un 20% mediante adaptación modular. Integramos estos avances en una nueva VLA de 950 millones de parámetros llamada FLOWER. Preentrenada en solo 200 horas de GPU H100, FLOWER ofrece un rendimiento competitivo con VLAs más grandes en 190 tareas que abarcan diez puntos de referencia de simulación y del mundo real, y demuestra robustez en diversas implementaciones robóticas. Además, FLOWER logra un nuevo estado del arte (SoTA) de 4.53 en el punto de referencia CALVIN ABC. Demostraciones, código y pesos preentrenados están disponibles en https://intuitive-robots.github.io/flower_vla/.
English
Developing efficient Vision-Language-Action (VLA) policies is crucial for
practical robotics deployment, yet current approaches face prohibitive
computational costs and resource requirements. Existing diffusion-based VLA
policies require multi-billion-parameter models and massive datasets to achieve
strong performance. We tackle this efficiency challenge with two contributions:
intermediate-modality fusion, which reallocates capacity to the diffusion head
by pruning up to 50% of LLM layers, and action-specific Global-AdaLN
conditioning, which cuts parameters by 20% through modular adaptation. We
integrate these advances into a novel 950 M-parameter VLA called FLOWER.
Pretrained in just 200 H100 GPU hours, FLOWER delivers competitive performance
with bigger VLAs across 190 tasks spanning ten simulation and real-world
benchmarks and demonstrates robustness across diverse robotic embodiments. In
addition, FLOWER achieves a new SoTA of 4.53 on the CALVIN ABC benchmark.
Demos, code and pretrained weights are available at
https://intuitive-robots.github.io/flower_vla/.