ChatPaper.aiChatPaper

FLOWER: Democratizando Políticas de Robôs Generalistas com Fluxos Eficientes de Visão-Linguagem-Ação

FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

September 5, 2025
Autores: Moritz Reuss, Hongyi Zhou, Marcel Rühle, Ömer Erdinç Yağmurlu, Fabian Otto, Rudolf Lioutikov
cs.AI

Resumo

O desenvolvimento de políticas eficientes de Visão-Linguagem-Ação (VLA) é crucial para a implantação prática da robótica, mas as abordagens atuais enfrentam custos computacionais e requisitos de recursos proibitivos. As políticas VLA baseadas em difusão existentes exigem modelos com bilhões de parâmetros e conjuntos de dados massivos para alcançar um desempenho robusto. Abordamos esse desafio de eficiência com duas contribuições: a fusão de modalidades intermediárias, que realoca a capacidade para o cabeçalho de difusão ao podar até 50% das camadas do LLM, e o condicionamento Global-AdaLN específico para ações, que reduz os parâmetros em 20% por meio de adaptação modular. Integramos esses avanços em um novo VLA de 950 milhões de parâmetros chamado FLOWER. Pré-treinado em apenas 200 horas de GPU H100, o FLOWER oferece um desempenho competitivo com VLAs maiores em 190 tarefas que abrangem dez benchmarks de simulação e mundo real e demonstra robustez em diversas implementações robóticas. Além disso, o FLOWER alcança um novo estado da arte (SoTA) de 4,53 no benchmark CALVIN ABC. Demonstrações, código e pesos pré-treinados estão disponíveis em https://intuitive-robots.github.io/flower_vla/.
English
Developing efficient Vision-Language-Action (VLA) policies is crucial for practical robotics deployment, yet current approaches face prohibitive computational costs and resource requirements. Existing diffusion-based VLA policies require multi-billion-parameter models and massive datasets to achieve strong performance. We tackle this efficiency challenge with two contributions: intermediate-modality fusion, which reallocates capacity to the diffusion head by pruning up to 50% of LLM layers, and action-specific Global-AdaLN conditioning, which cuts parameters by 20% through modular adaptation. We integrate these advances into a novel 950 M-parameter VLA called FLOWER. Pretrained in just 200 H100 GPU hours, FLOWER delivers competitive performance with bigger VLAs across 190 tasks spanning ten simulation and real-world benchmarks and demonstrates robustness across diverse robotic embodiments. In addition, FLOWER achieves a new SoTA of 4.53 on the CALVIN ABC benchmark. Demos, code and pretrained weights are available at https://intuitive-robots.github.io/flower_vla/.
PDF133September 15, 2025