Hy-Embodied-0.5-VLA : Des modèles vision-langage-action vers une pile d'apprentissage robotique en conditions réelles

Résumé

Dans ce rapport, nous présentons Hy-Embodied-0.5-VLA, abrégé en HyVLA-0.5, un système de bout en bout qui couvre l'ensemble de la pile d'apprentissage robotique : collecte de données, conception de modèle, pré-entraînement continu et ajustement fin supervisé, post-entraînement par apprentissage par renforcement, et déploiement dans le monde réel. Chaque composant joue un rôle distinct dans cette pile.

English

In this report, we present Hy-Embodied-0.5-VLA, abbreviated as HyVLA-0.5, an end-to-end system that spans the full robot learning stack: data collection, model design, continued pre-training and supervised fine-tuning, RL post-training, and real-world deployment. Each component serves a distinct role in this stack.