Hy-Embodied-0.5-VLA : Des modèles vision-langage-action vers une pile d'apprentissage robotique en conditions réelles
Hy-Embodied-0.5-VLA: From Vision-Language-Action Models to a Real-World Robot Learning Stack
June 12, 2026
Auteurs: He Zhang, Lingzhu Xiang, Haitao Lin, Zeyu Huang, Minghui Wang, Dingyan Zhong, Yubo Dong, Yihao Wu, Yongming Rao, Dongsheng Zhang, Wanjia He, Ling Chen, Kai Huang, Jiahao Chen, Sichang Su, Xumin Yu, Ziyi Wang, Chengwei Zhu, Xiao Teng, Yuchun Guo, Yufeng Zhang, Yuandong Liu, Rui Wang, Zisheng Lu, Han Hu, Zhengyou Zhang
cs.AI
Résumé
Dans ce rapport, nous présentons Hy-Embodied-0.5-VLA, abrégé en HyVLA-0.5, un système de bout en bout qui couvre l'ensemble de la pile d'apprentissage robotique : collecte de données, conception de modèle, pré-entraînement continu et ajustement fin supervisé, post-entraînement par apprentissage par renforcement, et déploiement dans le monde réel. Chaque composant joue un rôle distinct dans cette pile.
English
In this report, we present Hy-Embodied-0.5-VLA, abbreviated as HyVLA-0.5, an end-to-end system that spans the full robot learning stack: data collection, model design, continued pre-training and supervised fine-tuning, RL post-training, and real-world deployment. Each component serves a distinct role in this stack.