FLEUR : Démocratiser les politiques généralistes pour robots grâce à des flux efficaces de vision-langage-action
FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies
September 5, 2025
papers.authors: Moritz Reuss, Hongyi Zhou, Marcel Rühle, Ömer Erdinç Yağmurlu, Fabian Otto, Rudolf Lioutikov
cs.AI
papers.abstract
Le développement de politiques efficaces Vision-Langage-Action (VLA) est crucial pour le déploiement pratique de la robotique, mais les approches actuelles se heurtent à des coûts de calcul et des exigences en ressources prohibitifs. Les politiques VLA basées sur la diffusion existantes nécessitent des modèles de plusieurs milliards de paramètres et des ensembles de données massifs pour atteindre des performances solides. Nous relevons ce défi d'efficacité avec deux contributions : la fusion de modalités intermédiaires, qui réalloue la capacité à la tête de diffusion en élaguant jusqu'à 50 % des couches du modèle de langage (LLM), et le conditionnement Global-AdaLN spécifique à l'action, qui réduit les paramètres de 20 % grâce à une adaptation modulaire. Nous intégrons ces avancées dans un nouveau VLA de 950 millions de paramètres appelé FLOWER. Pré-entraîné en seulement 200 heures sur des GPU H100, FLOWER offre des performances compétitives par rapport aux VLA plus volumineux sur 190 tâches couvrant dix benchmarks de simulation et de monde réel, et démontre une robustesse face à diverses incarnations robotiques. De plus, FLOWER établit un nouveau record de 4,53 sur le benchmark CALVIN ABC. Les démonstrations, le code et les poids pré-entraînés sont disponibles à l'adresse https://intuitive-robots.github.io/flower_vla/.
English
Developing efficient Vision-Language-Action (VLA) policies is crucial for
practical robotics deployment, yet current approaches face prohibitive
computational costs and resource requirements. Existing diffusion-based VLA
policies require multi-billion-parameter models and massive datasets to achieve
strong performance. We tackle this efficiency challenge with two contributions:
intermediate-modality fusion, which reallocates capacity to the diffusion head
by pruning up to 50% of LLM layers, and action-specific Global-AdaLN
conditioning, which cuts parameters by 20% through modular adaptation. We
integrate these advances into a novel 950 M-parameter VLA called FLOWER.
Pretrained in just 200 H100 GPU hours, FLOWER delivers competitive performance
with bigger VLAs across 190 tasks spanning ten simulation and real-world
benchmarks and demonstrates robustness across diverse robotic embodiments. In
addition, FLOWER achieves a new SoTA of 4.53 on the CALVIN ABC benchmark.
Demos, code and pretrained weights are available at
https://intuitive-robots.github.io/flower_vla/.