Hy-Embodied-0.5-VLA: От моделей зрения-языка-действия к стеку обучения роботов в реальном мире

Аннотация

В данном отчете мы представляем Hy-Embodied-0.5-VLA (сокращенно HyVLA-0.5) — сквозную систему, охватывающую полный стек обучения роботов: сбор данных, проектирование модели, продолженное предварительное обучение и контролируемая донастройка, пост-обучение с подкреплением (RL) и развертывание в реальном мире. Каждый компонент выполняет свою четко определенную роль в этом стеке.

English

In this report, we present Hy-Embodied-0.5-VLA, abbreviated as HyVLA-0.5, an end-to-end system that spans the full robot learning stack: data collection, model design, continued pre-training and supervised fine-tuning, RL post-training, and real-world deployment. Each component serves a distinct role in this stack.