FLOWER: Демократизация универсальных стратегий управления роботами с помощью эффективных политик на основе взаимодействия зрения, языка и действий
FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies
September 5, 2025
Авторы: Moritz Reuss, Hongyi Zhou, Marcel Rühle, Ömer Erdinç Yağmurlu, Fabian Otto, Rudolf Lioutikov
cs.AI
Аннотация
Разработка эффективных политик Vision-Language-Action (VLA) имеет решающее значение для практического внедрения робототехники, однако современные подходы сталкиваются с непомерными вычислительными затратами и требованиями к ресурсам. Существующие VLA-политики на основе диффузии требуют моделей с миллиардами параметров и огромных наборов данных для достижения высокой производительности. Мы решаем эту проблему эффективности с помощью двух ключевых вкладов: промежуточного слияния модальностей, которое перераспределяет емкость на диффузионную голову, обрезая до 50% слоев LLM, и условного Global-AdaLN, специфичного для действий, которое сокращает количество параметров на 20% за счет модульной адаптации. Мы интегрируем эти достижения в новую VLA-модель с 950 миллионами параметров под названием FLOWER. Обучившись всего за 200 часов на GPU H100, FLOWER демонстрирует конкурентоспособную производительность по сравнению с более крупными VLA-моделями на 190 задачах, охватывающих десять симуляционных и реальных бенчмарков, и показывает устойчивость к различным роботизированным воплощениям. Кроме того, FLOWER устанавливает новый рекорд SoTA, равный 4.53, на бенчмарке CALVIN ABC. Демонстрации, код и предобученные веса доступны по адресу https://intuitive-robots.github.io/flower_vla/.
English
Developing efficient Vision-Language-Action (VLA) policies is crucial for
practical robotics deployment, yet current approaches face prohibitive
computational costs and resource requirements. Existing diffusion-based VLA
policies require multi-billion-parameter models and massive datasets to achieve
strong performance. We tackle this efficiency challenge with two contributions:
intermediate-modality fusion, which reallocates capacity to the diffusion head
by pruning up to 50% of LLM layers, and action-specific Global-AdaLN
conditioning, which cuts parameters by 20% through modular adaptation. We
integrate these advances into a novel 950 M-parameter VLA called FLOWER.
Pretrained in just 200 H100 GPU hours, FLOWER delivers competitive performance
with bigger VLAs across 190 tasks spanning ten simulation and real-world
benchmarks and demonstrates robustness across diverse robotic embodiments. In
addition, FLOWER achieves a new SoTA of 4.53 on the CALVIN ABC benchmark.
Demos, code and pretrained weights are available at
https://intuitive-robots.github.io/flower_vla/.