HY-Embodied-0.5 : Modèles Fondamentaux Incarnés pour Agents du Monde Réel
HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
April 8, 2026
Auteurs: Tencent Robotics X, HY Vision Team, Xumin Yu, Zuyan Liu, Ziyi Wang, He Zhang, Yongming Rao, Fangfu Liu, Yani Zhang, Ruowen Zhao, Oran Wang, Yves Liang, Haitao Lin, Minghui Wang, Yubo Dong, Kevin Cheng, Bolin Ni, Rui Huang, Han Hu, Zhengyou Zhang, Linus, Shunyu Yao
cs.AI
Résumé
Nous présentons HY-Embodied-0.5, une famille de modèles de fondation spécialement conçus pour les agents incarnés en environnement réel. Pour combler le fossé entre les modèles vision-langage (VLM) généraux et les exigences des agents incarnés, nos modèles sont développés pour renforcer les capacités fondamentales requises par l'intelligence incarnée : la perception visuelle spatiale et temporelle, ainsi qu'un raisonnement avancé pour la prédiction, l'interaction et la planification. La suite HY-Embodied-0.5 comprend deux variantes principales : un modèle efficace avec 2 milliards de paramètres activés conçu pour le déploiement en périphérie de réseau, et un modèle puissant avec 32 milliards de paramètres activés destiné au raisonnement complexe. Pour soutenir la perception visuelle fine essentielle aux tâches incarnées, nous adoptons une architecture de type Mixture-of-Transformers (MoT) afin de permettre un calcul spécifique à chaque modalité. En incorporant des tokens latents, cette conception améliore efficacement la représentation perceptuelle des modèles. Pour renforcer les capacités de raisonnement, nous introduisons un paradigme d'entraînement postérieur itératif et auto-évolutif. De plus, nous utilisons la distillation sur politique pour transférer les capacités avancées du grand modèle vers la variante plus petite, maximisant ainsi le potentiel de performance du modèle compact. Des évaluations approfondies sur 22 benchmarks, couvrant la perception visuelle, le raisonnement spatial et la compréhension incarnée, démontrent l'efficacité de notre approche. Notre modèle MoT-2B surpasse les modèles de pointe de taille similaire sur 16 benchmarks, tandis que la variante 32B atteint des performances comparables aux modèles de frontière tels que Gemini 3.0 Pro. Dans des expériences de contrôle robotique en aval, nous exploitons notre base VLM robuste pour entraîner un modèle efficace Vision-Langage-Action (VLA), obtenant des résultats convaincants lors d'évaluations physiques en monde réel. Le code et les modèles sont open-source à l'adresse https://github.com/Tencent-Hunyuan/HY-Embodied.
English
We introduce HY-Embodied-0.5, a family of foundation models specifically designed for real-world embodied agents. To bridge the gap between general Vision-Language Models (VLMs) and the demands of embodied agents, our models are developed to enhance the core capabilities required by embodied intelligence: spatial and temporal visual perception, alongside advanced embodied reasoning for prediction, interaction, and planning. The HY-Embodied-0.5 suite comprises two primary variants: an efficient model with 2B activated parameters designed for edge deployment, and a powerful model with 32B activated parameters targeted for complex reasoning. To support the fine-grained visual perception essential for embodied tasks, we adopt a Mixture-of-Transformers (MoT) architecture to enable modality-specific computing. By incorporating latent tokens, this design effectively enhances the perceptual representation of the models. To improve reasoning capabilities, we introduce an iterative, self-evolving post-training paradigm. Furthermore, we employ on-policy distillation to transfer the advanced capabilities of the large model to the smaller variant, thereby maximizing the performance potential of the compact model. Extensive evaluations across 22 benchmarks, spanning visual perception, spatial reasoning, and embodied understanding, demonstrate the effectiveness of our approach. Our MoT-2B model outperforms similarly sized state-of-the-art models on 16 benchmarks, while the 32B variant achieves performance comparable to frontier models such as Gemini 3.0 Pro. In downstream robot control experiments, we leverage our robust VLM foundation to train an effective Vision-Language-Action (VLA) model, achieving compelling results in real-world physical evaluations. Code and models are open-sourced at https://github.com/Tencent-Hunyuan/HY-Embodied.