ChatPaper.aiChatPaper

Hy-Embodied-0.5-VLA: От моделей зрения-языка-действия к стеку обучения роботов в реальном мире

Hy-Embodied-0.5-VLA: From Vision-Language-Action Models to a Real-World Robot Learning Stack

June 12, 2026
Авторы: He Zhang, Lingzhu Xiang, Haitao Lin, Zeyu Huang, Minghui Wang, Dingyan Zhong, Yubo Dong, Yihao Wu, Yongming Rao, Dongsheng Zhang, Wanjia He, Ling Chen, Kai Huang, Jiahao Chen, Sichang Su, Xumin Yu, Ziyi Wang, Chengwei Zhu, Xiao Teng, Yuchun Guo, Yufeng Zhang, Yuandong Liu, Rui Wang, Zisheng Lu, Han Hu, Zhengyou Zhang
cs.AI

Аннотация

В данном отчете мы представляем Hy-Embodied-0.5-VLA (сокращенно HyVLA-0.5) — сквозную систему, охватывающую полный стек обучения роботов: сбор данных, проектирование модели, продолженное предварительное обучение и контролируемая донастройка, пост-обучение с подкреплением (RL) и развертывание в реальном мире. Каждый компонент выполняет свою четко определенную роль в этом стеке.
English
In this report, we present Hy-Embodied-0.5-VLA, abbreviated as HyVLA-0.5, an end-to-end system that spans the full robot learning stack: data collection, model design, continued pre-training and supervised fine-tuning, RL post-training, and real-world deployment. Each component serves a distinct role in this stack.