HY-Embodied-0.5: Modelos Fundacionales Encarnados para Agentes del Mundo Real
HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
April 8, 2026
Autores: Tencent Robotics X, HY Vision Team, Xumin Yu, Zuyan Liu, Ziyi Wang, He Zhang, Yongming Rao, Fangfu Liu, Yani Zhang, Ruowen Zhao, Oran Wang, Yves Liang, Haitao Lin, Minghui Wang, Yubo Dong, Kevin Cheng, Bolin Ni, Rui Huang, Han Hu, Zhengyou Zhang, Linus, Shunyu Yao
cs.AI
Resumen
Presentamos HY-Embodied-0.5, una familia de modelos fundacionales diseñada específicamente para agentes corporizados del mundo real. Para cerrar la brecha entre los Modelos de Visión y Lenguaje (VLM) generales y las demandas de los agentes corporizados, nuestros modelos se desarrollan para potenciar las capacidades centrales requeridas por la inteligencia corporizada: percepción visual espacial y temporal, junto con razonamiento corporizado avanzado para predicción, interacción y planificación. La suite HY-Embodied-0.5 comprende dos variantes principales: un modelo eficiente con 2B parámetros activados diseñado para despliegue en el edge, y un modelo potente con 32B parámetros activados orientado al razonamiento complejo. Para respaldar la percepción visual de grano fino esencial para las tareas corporizadas, adoptamos una arquitectura de Mezcla de Transformadores (MoT) para permitir cómputo específico por modalidad. Al incorporar tokens latentes, este diseño mejora eficazmente la representación perceptiva de los modelos. Para mejorar las capacidades de razonamiento, introducimos un paradigma de post-entrenamiento iterativo y auto-evolutivo. Además, empleamos destilación on-policy para transferir las capacidades avanzadas del modelo grande a la variante más pequeña, maximizando así el potencial de rendimiento del modelo compacto. Evaluaciones exhaustivas en 22 benchmarks, abarcando percepción visual, razonamiento espacial y comprensión corporizada, demuestran la efectividad de nuestro enfoque. Nuestro modelo MoT-2B supera a modelos state-of-the-art de tamaño similar en 16 benchmarks, mientras que la variante de 32B logra un rendimiento comparable a modelos de vanguardia como Gemini 3.0 Pro. En experimentos de control robótico downstream, aprovechamos nuestra sólida base VLM para entrenar un modelo efectivo de Visión-Lenguaje-Acción (VLA), logrando resultados convincentes en evaluaciones físicas del mundo real. El código y los modelos son de código abierto en https://github.com/Tencent-Hunyuan/HY-Embodied.
English
We introduce HY-Embodied-0.5, a family of foundation models specifically designed for real-world embodied agents. To bridge the gap between general Vision-Language Models (VLMs) and the demands of embodied agents, our models are developed to enhance the core capabilities required by embodied intelligence: spatial and temporal visual perception, alongside advanced embodied reasoning for prediction, interaction, and planning. The HY-Embodied-0.5 suite comprises two primary variants: an efficient model with 2B activated parameters designed for edge deployment, and a powerful model with 32B activated parameters targeted for complex reasoning. To support the fine-grained visual perception essential for embodied tasks, we adopt a Mixture-of-Transformers (MoT) architecture to enable modality-specific computing. By incorporating latent tokens, this design effectively enhances the perceptual representation of the models. To improve reasoning capabilities, we introduce an iterative, self-evolving post-training paradigm. Furthermore, we employ on-policy distillation to transfer the advanced capabilities of the large model to the smaller variant, thereby maximizing the performance potential of the compact model. Extensive evaluations across 22 benchmarks, spanning visual perception, spatial reasoning, and embodied understanding, demonstrate the effectiveness of our approach. Our MoT-2B model outperforms similarly sized state-of-the-art models on 16 benchmarks, while the 32B variant achieves performance comparable to frontier models such as Gemini 3.0 Pro. In downstream robot control experiments, we leverage our robust VLM foundation to train an effective Vision-Language-Action (VLA) model, achieving compelling results in real-world physical evaluations. Code and models are open-sourced at https://github.com/Tencent-Hunyuan/HY-Embodied.