FLOWER: Democratizzazione delle Politiche Robotiche Generaliste con Flussi Efficienti di Visione-Linguaggio-Azione

Abstract

Lo sviluppo di politiche efficienti Vision-Language-Action (VLA) è cruciale per il dispiegamento pratico della robotica, ma gli approcci attuali affrontano costi computazionali e requisiti di risorse proibitivi. Le politiche VLA basate su diffusione esistenti richiedono modelli con miliardi di parametri e dataset massicci per ottenere prestazioni solide. Affrontiamo questa sfida di efficienza con due contributi: la fusione di modalità intermedie, che riallocata la capacità alla testa di diffusione potando fino al 50% degli strati del modello linguistico (LLM), e il condizionamento Global-AdaLN specifico per l'azione, che riduce i parametri del 20% attraverso un adattamento modulare. Integriamo questi progressi in un nuovo VLA da 950 milioni di parametri chiamato FLOWER. Pre-addestrato in sole 200 ore di GPU H100, FLOWER offre prestazioni competitive rispetto a VLA più grandi su 190 task che coprono dieci benchmark di simulazione e mondo reale, dimostrando robustezza su diverse incarnazioni robotiche. Inoltre, FLOWER raggiunge un nuovo stato dell'arte (SoTA) di 4.53 sul benchmark CALVIN ABC. Demo, codice e pesi pre-addestrati sono disponibili su https://intuitive-robots.github.io/flower_vla/.

English

Developing efficient Vision-Language-Action (VLA) policies is crucial for practical robotics deployment, yet current approaches face prohibitive computational costs and resource requirements. Existing diffusion-based VLA policies require multi-billion-parameter models and massive datasets to achieve strong performance. We tackle this efficiency challenge with two contributions: intermediate-modality fusion, which reallocates capacity to the diffusion head by pruning up to 50% of LLM layers, and action-specific Global-AdaLN conditioning, which cuts parameters by 20% through modular adaptation. We integrate these advances into a novel 950 M-parameter VLA called FLOWER. Pretrained in just 200 H100 GPU hours, FLOWER delivers competitive performance with bigger VLAs across 190 tasks spanning ten simulation and real-world benchmarks and demonstrates robustness across diverse robotic embodiments. In addition, FLOWER achieves a new SoTA of 4.53 on the CALVIN ABC benchmark. Demos, code and pretrained weights are available at https://intuitive-robots.github.io/flower_vla/.

FLOWER: Democratizzazione delle Politiche Robotiche Generaliste con Flussi Efficienti di Visione-Linguaggio-Azione

FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

Abstract

Support