FLOWER: Demokratisierung generalistischer Roboterrichtlinien durch effiziente Vision-Sprache-Handlungs-Flussrichtlinien

papers.abstract

Die Entwicklung effizienter Vision-Language-Action (VLA)-Politiken ist entscheidend für den praktischen Einsatz in der Robotik, doch aktuelle Ansätze stoßen auf prohibitive Rechenkosten und Ressourcenanforderungen. Bestehende, auf Diffusion basierende VLA-Politiken benötigen Modelle mit mehreren Milliarden Parametern und massive Datensätze, um eine starke Leistung zu erzielen. Wir adressieren diese Effizienzherausforderung mit zwei Beiträgen: der Fusion von Zwischenmodalitäten, die Kapazitäten durch das Beschneiden von bis zu 50 % der LLM-Schichten auf den Diffusionskopf umverteilt, und der aktionsspezifischen Global-AdaLN-Konditionierung, die die Parameteranzahl durch modulare Anpassung um 20 % reduziert. Wir integrieren diese Fortschritte in ein neuartiges 950-Millionen-Parameter-VLA namens FLOWER. Mit einer Vortrainingszeit von nur 200 H100-GPU-Stunden liefert FLOWER eine wettbewerbsfähige Leistung im Vergleich zu größeren VLAs über 190 Aufgaben hinweg, die zehn Simulations- und realweltliche Benchmarks umfassen, und zeigt Robustheit über verschiedene robotische Ausführungen hinweg. Zudem erreicht FLOWER einen neuen State-of-the-Art-Wert von 4,53 auf dem CALVIN-ABC-Benchmark. Demos, Code und vortrainierte Gewichte sind verfügbar unter https://intuitive-robots.github.io/flower_vla/.

English

Developing efficient Vision-Language-Action (VLA) policies is crucial for practical robotics deployment, yet current approaches face prohibitive computational costs and resource requirements. Existing diffusion-based VLA policies require multi-billion-parameter models and massive datasets to achieve strong performance. We tackle this efficiency challenge with two contributions: intermediate-modality fusion, which reallocates capacity to the diffusion head by pruning up to 50% of LLM layers, and action-specific Global-AdaLN conditioning, which cuts parameters by 20% through modular adaptation. We integrate these advances into a novel 950 M-parameter VLA called FLOWER. Pretrained in just 200 H100 GPU hours, FLOWER delivers competitive performance with bigger VLAs across 190 tasks spanning ten simulation and real-world benchmarks and demonstrates robustness across diverse robotic embodiments. In addition, FLOWER achieves a new SoTA of 4.53 on the CALVIN ABC benchmark. Demos, code and pretrained weights are available at https://intuitive-robots.github.io/flower_vla/.

FLOWER: Demokratisierung generalistischer Roboterrichtlinien durch effiziente Vision-Sprache-Handlungs-Flussrichtlinien

FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

papers.abstract

Support