ChatPaper.aiChatPaper

OpenHelix: Краткий обзор, эмпирический анализ и открытая модель двойной системы VLA для роботизированного манипулирования

OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation

May 6, 2025
Авторы: Can Cui, Pengxiang Ding, Wenxuan Song, Shuanghao Bai, Xinyang Tong, Zirui Ge, Runze Suo, Wanqi Zhou, Yang Liu, Bofang Jia, Han Zhao, Siteng Huang, Donglin Wang
cs.AI

Аннотация

Двухсистемные архитектуры VLA (Vision-Language-Action) стали актуальной темой в исследованиях воплощённого интеллекта, однако существует недостаток открытых реализаций для дальнейшего анализа производительности и оптимизации. Для решения этой проблемы в данной статье будут обобщены и сравнены структурные проекты существующих двухсистемных архитектур, а также проведены систематические эмпирические оценки ключевых элементов их дизайна. В итоге будет предоставлена низкозатратная открытая модель для дальнейшего изучения. Безусловно, проект будет продолжать обновляться с добавлением новых экспериментальных выводов и открытых моделей с улучшенной производительностью, доступных для выбора. Страница проекта: https://openhelix-robot.github.io/.
English
Dual-system VLA (Vision-Language-Action) architectures have become a hot topic in embodied intelligence research, but there is a lack of sufficient open-source work for further performance analysis and optimization. To address this problem, this paper will summarize and compare the structural designs of existing dual-system architectures, and conduct systematic empirical evaluations on the core design elements of existing dual-system architectures. Ultimately, it will provide a low-cost open-source model for further exploration. Of course, this project will continue to update with more experimental conclusions and open-source models with improved performance for everyone to choose from. Project page: https://openhelix-robot.github.io/.

Summary

AI-Generated Summary

PDF71May 8, 2025