ChatPaper.aiChatPaper

HY-Embodied-0.5: Belichaamde Fundamentmodellen voor Real-World Agenten

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

April 8, 2026
Auteurs: Tencent Robotics X, HY Vision Team, Xumin Yu, Zuyan Liu, Ziyi Wang, He Zhang, Yongming Rao, Fangfu Liu, Yani Zhang, Ruowen Zhao, Oran Wang, Yves Liang, Haitao Lin, Minghui Wang, Yubo Dong, Kevin Cheng, Bolin Ni, Rui Huang, Han Hu, Zhengyou Zhang, Linus, Shunyu Yao
cs.AI

Samenvatting

Wij introduceren HY-Embodied-0.5, een familie van foundation-modellen die specifiek zijn ontworpen voor embodied agents in de echte wereld. Om de kloof te overbruggen tussen algemene Vision-Language Models (VLM's) en de eisen van embodied agents, zijn onze modellen ontwikkeld om de kerncapaciteiten die vereist zijn voor embodied intelligence te verbeteren: ruimtelijke en temporele visuele waarneming, naast geavanceerde embodied reasoning voor voorspelling, interactie en planning. De HY-Embodied-0.5-suite omvat twee primaire varianten: een efficiënt model met 2B geactiveerde parameters voor edge-implementatie, en een krachtig model met 32B geactiveerde parameters gericht op complexe redeneertaken. Om de fijnmazige visuele waarneming, essentieel voor embodied taken, te ondersteunen, adopteren we een Mixture-of-Transformers (MoT)-architectuur om modalitiespecifieke verwerking mogelijk te maken. Door het incorporeren van latente tokens verbetert dit ontwerp effectief de perceptorische representatie van de modellen. Om de redeneercapaciteiten te verbeteren, introduceren we een iteratief, zelf-evoluerend post-training paradigma. Verder gebruiken we on-policy distillatie om de geavanceerde capaciteiten van het grote model over te dragen naar de kleinere variant, waardoor het prestatiepotentieel van het compacte model wordt gemaximaliseerd. Uitgebreide evaluaties over 22 benchmarks, variërend van visuele waarneming en ruimtelijk redeneren tot embodied understanding, tonen de effectiviteit van onze aanpak aan. Ons MoT-2B model presteert beter dan state-of-the-art modellen van vergelijkbare grootte op 16 benchmarks, terwijl de 32B-variant prestaties bereikt die vergelijkbaar zijn met frontier modellen zoals Gemini 3.0 Pro. In downstream robotbesturingsexperimenten benutten we onze robuuste VLM-foundation om een effectief Vision-Language-Action (VLA) model te trainen, waarbij overtuigende resultaten worden behaald in fysieke evaluaties in de echte wereld. Code en modellen zijn open-source beschikbaar op https://github.com/Tencent-Hunyuan/HY-Embodied.
English
We introduce HY-Embodied-0.5, a family of foundation models specifically designed for real-world embodied agents. To bridge the gap between general Vision-Language Models (VLMs) and the demands of embodied agents, our models are developed to enhance the core capabilities required by embodied intelligence: spatial and temporal visual perception, alongside advanced embodied reasoning for prediction, interaction, and planning. The HY-Embodied-0.5 suite comprises two primary variants: an efficient model with 2B activated parameters designed for edge deployment, and a powerful model with 32B activated parameters targeted for complex reasoning. To support the fine-grained visual perception essential for embodied tasks, we adopt a Mixture-of-Transformers (MoT) architecture to enable modality-specific computing. By incorporating latent tokens, this design effectively enhances the perceptual representation of the models. To improve reasoning capabilities, we introduce an iterative, self-evolving post-training paradigm. Furthermore, we employ on-policy distillation to transfer the advanced capabilities of the large model to the smaller variant, thereby maximizing the performance potential of the compact model. Extensive evaluations across 22 benchmarks, spanning visual perception, spatial reasoning, and embodied understanding, demonstrate the effectiveness of our approach. Our MoT-2B model outperforms similarly sized state-of-the-art models on 16 benchmarks, while the 32B variant achieves performance comparable to frontier models such as Gemini 3.0 Pro. In downstream robot control experiments, we leverage our robust VLM foundation to train an effective Vision-Language-Action (VLA) model, achieving compelling results in real-world physical evaluations. Code and models are open-sourced at https://github.com/Tencent-Hunyuan/HY-Embodied.
PDF1574April 13, 2026