ChatPaper.aiChatPaper

Hy-Embodied-0.5-VLA: Van Visie-Taal-Actie-Modellen naar een Real-World Robotleerstack

Hy-Embodied-0.5-VLA: From Vision-Language-Action Models to a Real-World Robot Learning Stack

June 12, 2026
Auteurs: He Zhang, Lingzhu Xiang, Haitao Lin, Zeyu Huang, Minghui Wang, Dingyan Zhong, Yubo Dong, Yihao Wu, Yongming Rao, Dongsheng Zhang, Wanjia He, Ling Chen, Kai Huang, Jiahao Chen, Sichang Su, Xumin Yu, Ziyi Wang, Chengwei Zhu, Xiao Teng, Yuchun Guo, Yufeng Zhang, Yuandong Liu, Rui Wang, Zisheng Lu, Han Hu, Zhengyou Zhang
cs.AI

Samenvatting

In dit rapport presenteren we Hy-Embodied-0.5-VLA, afgekort als HyVLA-0.5, een end-to-end systeem dat de volledige robotleerstapel omvat: gegevensverzameling, modelontwerp, voortgezette pre-training en gesuperviseerde fine-tuning, RL-natraining en implementatie in de echte wereld. Elk onderdeel speelt een specifieke rol in deze stapel.
English
In this report, we present Hy-Embodied-0.5-VLA, abbreviated as HyVLA-0.5, an end-to-end system that spans the full robot learning stack: data collection, model design, continued pre-training and supervised fine-tuning, RL post-training, and real-world deployment. Each component serves a distinct role in this stack.