HY-Embodied-0.5: Modelli Fondamentali Embodied per Agenti nel Mondo Reale
HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
April 8, 2026
Autori: Tencent Robotics X, HY Vision Team, Xumin Yu, Zuyan Liu, Ziyi Wang, He Zhang, Yongming Rao, Fangfu Liu, Yani Zhang, Ruowen Zhao, Oran Wang, Yves Liang, Haitao Lin, Minghui Wang, Yubo Dong, Kevin Cheng, Bolin Ni, Rui Huang, Han Hu, Zhengyou Zhang, Linus, Shunyu Yao
cs.AI
Abstract
Introduciamo HY-Embodied-0.5, una famiglia di modelli fondazionali progettati specificamente per agenti embodied nel mondo reale. Per colmare il divario tra i modelli visione-linguaggio (VLM) generici e le esigenze degli agenti embodied, i nostri modelli sono sviluppati per potenziare le capacità fondamentali richieste dall'intelligenza embodied: la percezione visiva spaziale e temporale, unita a un ragionamento embodied avanzato per la previsione, l'interazione e la pianificazione. La suite HY-Embodied-0.5 comprende due varianti principali: un modello efficiente con 2 miliardi di parametri attivati progettato per il deployment su dispositivi edge, e un modello potente con 32 miliardi di parametri attivati destinato a compiti di ragionamento complesso. Per supportare la percezione visiva fine-granularità essenziale per i compiti embodied, adottiamo un'architettura Mixture-of-Transformers (MoT) per abilitare l'elaborazione specifica per modalità. Incorporando token latenti, questo design migliora efficacemente la rappresentazione percettiva dei modelli. Per migliorare le capacità di ragionamento, introduciamo un paradigma di post-addestramento iterativo e auto-evolutivo. Inoltre, impieghiamo la distillazione on-policy per trasferire le capacità avanzate del modello di grandi dimensioni alla variante più piccola, massimizzando così il potenziale prestazionale del modello compatto. Valutazioni estensive su 22 benchmark, che coprono percezione visiva, ragionamento spaziale e comprensione embodied, dimostrano l'efficacia del nostro approccio. Il nostro modello MoT-2B supera modelli state-of-the-art di dimensioni simili su 16 benchmark, mentre la variante da 32B raggiunge prestazioni paragonabili a modelli di frontiera come Gemini 3.0 Pro. In esperimenti di controllo robotico downstream, sfruttiamo la nostra solida base VLM per addestrare un efficace modello Vision-Language-Action (VLA), ottenendo risultati convincenti in valutazioni fisiche nel mondo reale. Codice e modelli sono open-source all'indirizzo https://github.com/Tencent-Hunyuan/HY-Embodied.
English
We introduce HY-Embodied-0.5, a family of foundation models specifically designed for real-world embodied agents. To bridge the gap between general Vision-Language Models (VLMs) and the demands of embodied agents, our models are developed to enhance the core capabilities required by embodied intelligence: spatial and temporal visual perception, alongside advanced embodied reasoning for prediction, interaction, and planning. The HY-Embodied-0.5 suite comprises two primary variants: an efficient model with 2B activated parameters designed for edge deployment, and a powerful model with 32B activated parameters targeted for complex reasoning. To support the fine-grained visual perception essential for embodied tasks, we adopt a Mixture-of-Transformers (MoT) architecture to enable modality-specific computing. By incorporating latent tokens, this design effectively enhances the perceptual representation of the models. To improve reasoning capabilities, we introduce an iterative, self-evolving post-training paradigm. Furthermore, we employ on-policy distillation to transfer the advanced capabilities of the large model to the smaller variant, thereby maximizing the performance potential of the compact model. Extensive evaluations across 22 benchmarks, spanning visual perception, spatial reasoning, and embodied understanding, demonstrate the effectiveness of our approach. Our MoT-2B model outperforms similarly sized state-of-the-art models on 16 benchmarks, while the 32B variant achieves performance comparable to frontier models such as Gemini 3.0 Pro. In downstream robot control experiments, we leverage our robust VLM foundation to train an effective Vision-Language-Action (VLA) model, achieving compelling results in real-world physical evaluations. Code and models are open-sourced at https://github.com/Tencent-Hunyuan/HY-Embodied.