HY-Embodied-0.5: Modelos de Fundação Corporificados para Agentes do Mundo Real
HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
April 8, 2026
Autores: Tencent Robotics X, HY Vision Team, Xumin Yu, Zuyan Liu, Ziyi Wang, He Zhang, Yongming Rao, Fangfu Liu, Yani Zhang, Ruowen Zhao, Oran Wang, Yves Liang, Haitao Lin, Minghui Wang, Yubo Dong, Kevin Cheng, Bolin Ni, Rui Huang, Han Hu, Zhengyou Zhang, Linus, Shunyu Yao
cs.AI
Resumo
Apresentamos a família HY-Embodied-0.5, uma série de modelos de base projetados especificamente para agentes corporificados no mundo real. Para preencher a lacuna entre os Modelos de Visão e Linguagem (VLMs) gerais e as demandas dos agentes corporificados, nossos modelos foram desenvolvidos para aprimorar as capacidades centrais exigidas pela inteligência corporificada: percepção visual espacial e temporal, juntamente com raciocínio corporificado avançado para previsão, interação e planejamento. A suíte HY-Embodied-0.5 compreende duas variantes principais: um modelo eficiente com 2 bilhões de parâmetros ativados, projetado para implantação em dispositivos de borda, e um modelo potente com 32 bilhões de parâmetros ativados, voltado para raciocínio complexo. Para suportar a percepção visual refinada, essencial para tarefas corporificadas, adotamos uma arquitetura de Mistura de Transformers (MoT) para permitir computação específica por modalidade. Ao incorporar tokens latentes, este projeto aprimora efetivamente a representação perceptual dos modelos. Para melhorar as capacidades de raciocínio, introduzimos um paradigma de pós-treinamento iterativo e auto-evolutivo. Além disso, empregamos destilação baseada em política (*on-policy distillation*) para transferir as capacidades avançadas do modelo grande para a variante menor, maximizando assim o potencial de desempenho do modelo compacto. Avaliações extensas em 22 benchmarks, abrangendo percepção visual, raciocínio espacial e compreensão corporificada, demonstram a eficácia da nossa abordagem. Nosso modelo MoT-2B supera modelos state-of-the-art de tamanho similar em 16 benchmarks, enquanto a variante de 32B alcança desempenho comparável a modelos de fronteira, como o Gemini 3.0 Pro. Em experimentos de controle robótico downstream, aproveitamos nossa base robusta de VLM para treinar um modelo eficaz de Visão-Linguagem-Ação (VLA), alcançando resultados convincentes em avaliações físicas do mundo real. O código e os modelos são de código aberto em https://github.com/Tencent-Hunyuan/HY-Embodied.
English
We introduce HY-Embodied-0.5, a family of foundation models specifically designed for real-world embodied agents. To bridge the gap between general Vision-Language Models (VLMs) and the demands of embodied agents, our models are developed to enhance the core capabilities required by embodied intelligence: spatial and temporal visual perception, alongside advanced embodied reasoning for prediction, interaction, and planning. The HY-Embodied-0.5 suite comprises two primary variants: an efficient model with 2B activated parameters designed for edge deployment, and a powerful model with 32B activated parameters targeted for complex reasoning. To support the fine-grained visual perception essential for embodied tasks, we adopt a Mixture-of-Transformers (MoT) architecture to enable modality-specific computing. By incorporating latent tokens, this design effectively enhances the perceptual representation of the models. To improve reasoning capabilities, we introduce an iterative, self-evolving post-training paradigm. Furthermore, we employ on-policy distillation to transfer the advanced capabilities of the large model to the smaller variant, thereby maximizing the performance potential of the compact model. Extensive evaluations across 22 benchmarks, spanning visual perception, spatial reasoning, and embodied understanding, demonstrate the effectiveness of our approach. Our MoT-2B model outperforms similarly sized state-of-the-art models on 16 benchmarks, while the 32B variant achieves performance comparable to frontier models such as Gemini 3.0 Pro. In downstream robot control experiments, we leverage our robust VLM foundation to train an effective Vision-Language-Action (VLA) model, achieving compelling results in real-world physical evaluations. Code and models are open-sourced at https://github.com/Tencent-Hunyuan/HY-Embodied.