ChatPaper.aiChatPaper

FLOWER: Демократизация универсальных стратегий управления роботами с помощью эффективных политик на основе взаимодействия зрения, языка и действий

FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

September 5, 2025
Авторы: Moritz Reuss, Hongyi Zhou, Marcel Rühle, Ömer Erdinç Yağmurlu, Fabian Otto, Rudolf Lioutikov
cs.AI

Аннотация

Разработка эффективных политик Vision-Language-Action (VLA) имеет решающее значение для практического внедрения робототехники, однако современные подходы сталкиваются с непомерными вычислительными затратами и требованиями к ресурсам. Существующие VLA-политики на основе диффузии требуют моделей с миллиардами параметров и огромных наборов данных для достижения высокой производительности. Мы решаем эту проблему эффективности с помощью двух ключевых вкладов: промежуточного слияния модальностей, которое перераспределяет емкость на диффузионную голову, обрезая до 50% слоев LLM, и условного Global-AdaLN, специфичного для действий, которое сокращает количество параметров на 20% за счет модульной адаптации. Мы интегрируем эти достижения в новую VLA-модель с 950 миллионами параметров под названием FLOWER. Обучившись всего за 200 часов на GPU H100, FLOWER демонстрирует конкурентоспособную производительность по сравнению с более крупными VLA-моделями на 190 задачах, охватывающих десять симуляционных и реальных бенчмарков, и показывает устойчивость к различным роботизированным воплощениям. Кроме того, FLOWER устанавливает новый рекорд SoTA, равный 4.53, на бенчмарке CALVIN ABC. Демонстрации, код и предобученные веса доступны по адресу https://intuitive-robots.github.io/flower_vla/.
English
Developing efficient Vision-Language-Action (VLA) policies is crucial for practical robotics deployment, yet current approaches face prohibitive computational costs and resource requirements. Existing diffusion-based VLA policies require multi-billion-parameter models and massive datasets to achieve strong performance. We tackle this efficiency challenge with two contributions: intermediate-modality fusion, which reallocates capacity to the diffusion head by pruning up to 50% of LLM layers, and action-specific Global-AdaLN conditioning, which cuts parameters by 20% through modular adaptation. We integrate these advances into a novel 950 M-parameter VLA called FLOWER. Pretrained in just 200 H100 GPU hours, FLOWER delivers competitive performance with bigger VLAs across 190 tasks spanning ten simulation and real-world benchmarks and demonstrates robustness across diverse robotic embodiments. In addition, FLOWER achieves a new SoTA of 4.53 on the CALVIN ABC benchmark. Demos, code and pretrained weights are available at https://intuitive-robots.github.io/flower_vla/.
PDF133September 15, 2025