FLOWER: 효율적인 비전-언어-행동 흐름 정책을 통해 일반화된 로봇 정책의 민주화
FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies
September 5, 2025
저자: Moritz Reuss, Hongyi Zhou, Marcel Rühle, Ömer Erdinç Yağmurlu, Fabian Otto, Rudolf Lioutikov
cs.AI
초록
실용적인 로봇 배포를 위해서는 효율적인 Vision-Language-Action (VLA) 정책 개발이 중요하지만, 현재의 접근 방식은 과도한 계산 비용과 자원 요구 사항에 직면해 있습니다. 기존의 확산 기반 VLA 정책은 강력한 성능을 달성하기 위해 수십억 개의 파라미터를 가진 모델과 방대한 데이터셋을 필요로 합니다. 우리는 이러한 효율성 문제를 해결하기 위해 두 가지 기여를 제안합니다: 중간 모달리티 융합(intermediate-modality fusion)은 LLM 레이어의 최대 50%를 제거하여 확산 헤드에 용량을 재할당하고, 액션 특화 Global-AdaLN 조건화(action-specific Global-AdaLN conditioning)는 모듈식 적응을 통해 파라미터를 20% 절감합니다. 이러한 발전을 통합하여 950M 파라미터의 새로운 VLA인 FLOWER를 개발했습니다. 단 200 H100 GPU 시간으로 사전 학습된 FLOWER는 10개의 시뮬레이션 및 실제 세계 벤치마크에 걸친 190개 작업에서 더 큰 VLA들과 경쟁력 있는 성능을 보여주며, 다양한 로봇 구현체에서 견고성을 입증합니다. 또한, FLOWER는 CALVIN ABC 벤치마크에서 4.53의 새로운 SoTA를 달성했습니다. 데모, 코드 및 사전 학습된 가중치는 https://intuitive-robots.github.io/flower_vla/에서 확인할 수 있습니다.
English
Developing efficient Vision-Language-Action (VLA) policies is crucial for
practical robotics deployment, yet current approaches face prohibitive
computational costs and resource requirements. Existing diffusion-based VLA
policies require multi-billion-parameter models and massive datasets to achieve
strong performance. We tackle this efficiency challenge with two contributions:
intermediate-modality fusion, which reallocates capacity to the diffusion head
by pruning up to 50% of LLM layers, and action-specific Global-AdaLN
conditioning, which cuts parameters by 20% through modular adaptation. We
integrate these advances into a novel 950 M-parameter VLA called FLOWER.
Pretrained in just 200 H100 GPU hours, FLOWER delivers competitive performance
with bigger VLAs across 190 tasks spanning ten simulation and real-world
benchmarks and demonstrates robustness across diverse robotic embodiments. In
addition, FLOWER achieves a new SoTA of 4.53 on the CALVIN ABC benchmark.
Demos, code and pretrained weights are available at
https://intuitive-robots.github.io/flower_vla/.