FLOWER: Democratizzazione delle Politiche Robotiche Generaliste con Flussi Efficienti di Visione-Linguaggio-Azione
FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies
September 5, 2025
Autori: Moritz Reuss, Hongyi Zhou, Marcel Rühle, Ömer Erdinç Yağmurlu, Fabian Otto, Rudolf Lioutikov
cs.AI
Abstract
Lo sviluppo di politiche efficienti Vision-Language-Action (VLA) è cruciale per il dispiegamento pratico della robotica, ma gli approcci attuali affrontano costi computazionali e requisiti di risorse proibitivi. Le politiche VLA basate su diffusione esistenti richiedono modelli con miliardi di parametri e dataset massicci per ottenere prestazioni solide. Affrontiamo questa sfida di efficienza con due contributi: la fusione di modalità intermedie, che riallocata la capacità alla testa di diffusione potando fino al 50% degli strati del modello linguistico (LLM), e il condizionamento Global-AdaLN specifico per l'azione, che riduce i parametri del 20% attraverso un adattamento modulare. Integriamo questi progressi in un nuovo VLA da 950 milioni di parametri chiamato FLOWER. Pre-addestrato in sole 200 ore di GPU H100, FLOWER offre prestazioni competitive rispetto a VLA più grandi su 190 task che coprono dieci benchmark di simulazione e mondo reale, dimostrando robustezza su diverse incarnazioni robotiche. Inoltre, FLOWER raggiunge un nuovo stato dell'arte (SoTA) di 4.53 sul benchmark CALVIN ABC. Demo, codice e pesi pre-addestrati sono disponibili su https://intuitive-robots.github.io/flower_vla/.
English
Developing efficient Vision-Language-Action (VLA) policies is crucial for
practical robotics deployment, yet current approaches face prohibitive
computational costs and resource requirements. Existing diffusion-based VLA
policies require multi-billion-parameter models and massive datasets to achieve
strong performance. We tackle this efficiency challenge with two contributions:
intermediate-modality fusion, which reallocates capacity to the diffusion head
by pruning up to 50% of LLM layers, and action-specific Global-AdaLN
conditioning, which cuts parameters by 20% through modular adaptation. We
integrate these advances into a novel 950 M-parameter VLA called FLOWER.
Pretrained in just 200 H100 GPU hours, FLOWER delivers competitive performance
with bigger VLAs across 190 tasks spanning ten simulation and real-world
benchmarks and demonstrates robustness across diverse robotic embodiments. In
addition, FLOWER achieves a new SoTA of 4.53 on the CALVIN ABC benchmark.
Demos, code and pretrained weights are available at
https://intuitive-robots.github.io/flower_vla/.