FLOWER: Democratizando Políticas de Robôs Generalistas com Fluxos Eficientes de Visão-Linguagem-Ação
FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies
September 5, 2025
Autores: Moritz Reuss, Hongyi Zhou, Marcel Rühle, Ömer Erdinç Yağmurlu, Fabian Otto, Rudolf Lioutikov
cs.AI
Resumo
O desenvolvimento de políticas eficientes de Visão-Linguagem-Ação (VLA) é crucial para a implantação prática da robótica, mas as abordagens atuais enfrentam custos computacionais e requisitos de recursos proibitivos. As políticas VLA baseadas em difusão existentes exigem modelos com bilhões de parâmetros e conjuntos de dados massivos para alcançar um desempenho robusto. Abordamos esse desafio de eficiência com duas contribuições: a fusão de modalidades intermediárias, que realoca a capacidade para o cabeçalho de difusão ao podar até 50% das camadas do LLM, e o condicionamento Global-AdaLN específico para ações, que reduz os parâmetros em 20% por meio de adaptação modular. Integramos esses avanços em um novo VLA de 950 milhões de parâmetros chamado FLOWER. Pré-treinado em apenas 200 horas de GPU H100, o FLOWER oferece um desempenho competitivo com VLAs maiores em 190 tarefas que abrangem dez benchmarks de simulação e mundo real e demonstra robustez em diversas implementações robóticas. Além disso, o FLOWER alcança um novo estado da arte (SoTA) de 4,53 no benchmark CALVIN ABC. Demonstrações, código e pesos pré-treinados estão disponíveis em https://intuitive-robots.github.io/flower_vla/.
English
Developing efficient Vision-Language-Action (VLA) policies is crucial for
practical robotics deployment, yet current approaches face prohibitive
computational costs and resource requirements. Existing diffusion-based VLA
policies require multi-billion-parameter models and massive datasets to achieve
strong performance. We tackle this efficiency challenge with two contributions:
intermediate-modality fusion, which reallocates capacity to the diffusion head
by pruning up to 50% of LLM layers, and action-specific Global-AdaLN
conditioning, which cuts parameters by 20% through modular adaptation. We
integrate these advances into a novel 950 M-parameter VLA called FLOWER.
Pretrained in just 200 H100 GPU hours, FLOWER delivers competitive performance
with bigger VLAs across 190 tasks spanning ten simulation and real-world
benchmarks and demonstrates robustness across diverse robotic embodiments. In
addition, FLOWER achieves a new SoTA of 4.53 on the CALVIN ABC benchmark.
Demos, code and pretrained weights are available at
https://intuitive-robots.github.io/flower_vla/.