FLOWER: Demokratisierung generalistischer Roboterrichtlinien durch effiziente Vision-Sprache-Handlungs-Flussrichtlinien
FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies
September 5, 2025
papers.authors: Moritz Reuss, Hongyi Zhou, Marcel Rühle, Ömer Erdinç Yağmurlu, Fabian Otto, Rudolf Lioutikov
cs.AI
papers.abstract
Die Entwicklung effizienter Vision-Language-Action (VLA)-Politiken ist entscheidend für den praktischen Einsatz in der Robotik, doch aktuelle Ansätze stoßen auf prohibitive Rechenkosten und Ressourcenanforderungen. Bestehende, auf Diffusion basierende VLA-Politiken benötigen Modelle mit mehreren Milliarden Parametern und massive Datensätze, um eine starke Leistung zu erzielen. Wir adressieren diese Effizienzherausforderung mit zwei Beiträgen: der Fusion von Zwischenmodalitäten, die Kapazitäten durch das Beschneiden von bis zu 50 % der LLM-Schichten auf den Diffusionskopf umverteilt, und der aktionsspezifischen Global-AdaLN-Konditionierung, die die Parameteranzahl durch modulare Anpassung um 20 % reduziert. Wir integrieren diese Fortschritte in ein neuartiges 950-Millionen-Parameter-VLA namens FLOWER. Mit einer Vortrainingszeit von nur 200 H100-GPU-Stunden liefert FLOWER eine wettbewerbsfähige Leistung im Vergleich zu größeren VLAs über 190 Aufgaben hinweg, die zehn Simulations- und realweltliche Benchmarks umfassen, und zeigt Robustheit über verschiedene robotische Ausführungen hinweg. Zudem erreicht FLOWER einen neuen State-of-the-Art-Wert von 4,53 auf dem CALVIN-ABC-Benchmark. Demos, Code und vortrainierte Gewichte sind verfügbar unter https://intuitive-robots.github.io/flower_vla/.
English
Developing efficient Vision-Language-Action (VLA) policies is crucial for
practical robotics deployment, yet current approaches face prohibitive
computational costs and resource requirements. Existing diffusion-based VLA
policies require multi-billion-parameter models and massive datasets to achieve
strong performance. We tackle this efficiency challenge with two contributions:
intermediate-modality fusion, which reallocates capacity to the diffusion head
by pruning up to 50% of LLM layers, and action-specific Global-AdaLN
conditioning, which cuts parameters by 20% through modular adaptation. We
integrate these advances into a novel 950 M-parameter VLA called FLOWER.
Pretrained in just 200 H100 GPU hours, FLOWER delivers competitive performance
with bigger VLAs across 190 tasks spanning ten simulation and real-world
benchmarks and demonstrates robustness across diverse robotic embodiments. In
addition, FLOWER achieves a new SoTA of 4.53 on the CALVIN ABC benchmark.
Demos, code and pretrained weights are available at
https://intuitive-robots.github.io/flower_vla/.