OpenHelix: Uma Breve Análise, Estudo Empírico e Modelo de Sistema Duplo VLA de Código Aberto para Manipulação Robótica
OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation
May 6, 2025
Autores: Can Cui, Pengxiang Ding, Wenxuan Song, Shuanghao Bai, Xinyang Tong, Zirui Ge, Runze Suo, Wanqi Zhou, Yang Liu, Bofang Jia, Han Zhao, Siteng Huang, Donglin Wang
cs.AI
Resumo
Arquiteturas VLA (Visão-Linguagem-Ação) de sistema duplo tornaram-se um tópico quente na pesquisa de inteligência incorporada, mas há uma carência de trabalhos de código aberto suficientes para análises e otimizações de desempenho mais aprofundadas. Para abordar esse problema, este artigo irá resumir e comparar os designs estruturais das arquiteturas de sistema duplo existentes, além de realizar avaliações empíricas sistemáticas sobre os elementos centrais de design dessas arquiteturas. Por fim, será fornecido um modelo de código aberto de baixo custo para explorações futuras. Naturalmente, este projeto continuará a ser atualizado com mais conclusões experimentais e modelos de código aberto com desempenho aprimorado para que todos possam escolher. Página do projeto: https://openhelix-robot.github.io/.
English
Dual-system VLA (Vision-Language-Action) architectures have become a hot
topic in embodied intelligence research, but there is a lack of sufficient
open-source work for further performance analysis and optimization. To address
this problem, this paper will summarize and compare the structural designs of
existing dual-system architectures, and conduct systematic empirical
evaluations on the core design elements of existing dual-system architectures.
Ultimately, it will provide a low-cost open-source model for further
exploration. Of course, this project will continue to update with more
experimental conclusions and open-source models with improved performance for
everyone to choose from. Project page: https://openhelix-robot.github.io/.