OpenHelix: Краткий обзор, эмпирический анализ и открытая модель двойной системы VLA для роботизированного манипулирования
OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation
May 6, 2025
Авторы: Can Cui, Pengxiang Ding, Wenxuan Song, Shuanghao Bai, Xinyang Tong, Zirui Ge, Runze Suo, Wanqi Zhou, Yang Liu, Bofang Jia, Han Zhao, Siteng Huang, Donglin Wang
cs.AI
Аннотация
Двухсистемные архитектуры VLA (Vision-Language-Action) стали актуальной темой в исследованиях воплощённого интеллекта, однако существует недостаток открытых реализаций для дальнейшего анализа производительности и оптимизации. Для решения этой проблемы в данной статье будут обобщены и сравнены структурные проекты существующих двухсистемных архитектур, а также проведены систематические эмпирические оценки ключевых элементов их дизайна. В итоге будет предоставлена низкозатратная открытая модель для дальнейшего изучения. Безусловно, проект будет продолжать обновляться с добавлением новых экспериментальных выводов и открытых моделей с улучшенной производительностью, доступных для выбора. Страница проекта: https://openhelix-robot.github.io/.
English
Dual-system VLA (Vision-Language-Action) architectures have become a hot
topic in embodied intelligence research, but there is a lack of sufficient
open-source work for further performance analysis and optimization. To address
this problem, this paper will summarize and compare the structural designs of
existing dual-system architectures, and conduct systematic empirical
evaluations on the core design elements of existing dual-system architectures.
Ultimately, it will provide a low-cost open-source model for further
exploration. Of course, this project will continue to update with more
experimental conclusions and open-source models with improved performance for
everyone to choose from. Project page: https://openhelix-robot.github.io/.Summary
AI-Generated Summary