ChatPaper.aiChatPaper

HY-Embodied-0.5: Verkörperlichte Basismodelle für Agenten in der realen Welt

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

April 8, 2026
Autoren: Tencent Robotics X, HY Vision Team, Xumin Yu, Zuyan Liu, Ziyi Wang, He Zhang, Yongming Rao, Fangfu Liu, Yani Zhang, Ruowen Zhao, Oran Wang, Yves Liang, Haitao Lin, Minghui Wang, Yubo Dong, Kevin Cheng, Bolin Ni, Rui Huang, Han Hu, Zhengyou Zhang, Linus, Shunyu Yao
cs.AI

Zusammenfassung

Wir stellen HY-Embodied-0.5 vor, eine Familie von Foundation-Modellen, die speziell für den Einsatz in realen, verkörperten Agenten (Embodied Agents) entwickelt wurden. Um die Lücke zwischen allgemeinen Vision-Language-Modellen (VLMs) und den Anforderungen verkörperter Agenten zu schließen, wurden unsere Modelle entwickelt, um die zentralen Fähigkeiten der verkörperten Intelligenz zu verbessern: räumliche und zeitliche visuelle Wahrnehmung sowie erweitertes verkörpertes Schließen für Vorhersage, Interaktion und Planung. Die HY-Embodied-0.5-Suite umfasst zwei Hauptvarianten: ein effizientes Modell mit 2B aktivierten Parametern für den Einsatz auf Edge-Geräten und ein leistungsstarkes Modell mit 32B aktivierten Parametern für komplexe Reasoning-Aufgaben. Um die für verkörperte Aufgaben essentielle, feingranulare visuelle Wahrnehmung zu unterstützen, setzen wir eine Mixture-of-Transformers (MoT)-Architektur ein, die eine modalitätsspezifische Verarbeitung ermöglicht. Durch die Integration latenter Tokens verbessert dieses Design effektiv die perzeptuelle Repräsentation der Modelle. Um die Reasoning-Fähigkeiten zu steigern, führen wir ein iteratives, sich selbst entwickelndes Post-Training-Paradigma ein. Des Weiteren nutzen wir On-Policy-Distillation, um die erweiterten Fähigkeiten des großen Modells auf die kleinere Variante zu übertragen und so das Leistungspotenzial des kompakten Modells zu maximieren. Umfangreiche Evaluierungen über 22 Benchmarks hinweg, die visuelle Wahrnehmung, räumliches Schließen und verkörpertes Verständnis abdecken, demonstrieren die Effektivität unseres Ansatzes. Unser MoT-2B-Modell übertrifft State-of-the-Art-Modelle ähnlicher Größe in 16 Benchmarks, während die 32B-Variante eine mit Spitzenmodellen wie Gemini 3.0 Pro vergleichbare Leistung erzielt. In nachgelagerten Robotiksteuerungs-Experimenten nutzen wir unsere robuste VLM-Basis, um ein effektives Vision-Language-Action (VLA)-Modell zu trainieren, das überzeugende Ergebnisse in realen physischen Evaluierungen erzielt. Code und Modelle sind unter https://github.com/Tencent-Hunyuan/HY-Embodied quelloffen verfügbar.
English
We introduce HY-Embodied-0.5, a family of foundation models specifically designed for real-world embodied agents. To bridge the gap between general Vision-Language Models (VLMs) and the demands of embodied agents, our models are developed to enhance the core capabilities required by embodied intelligence: spatial and temporal visual perception, alongside advanced embodied reasoning for prediction, interaction, and planning. The HY-Embodied-0.5 suite comprises two primary variants: an efficient model with 2B activated parameters designed for edge deployment, and a powerful model with 32B activated parameters targeted for complex reasoning. To support the fine-grained visual perception essential for embodied tasks, we adopt a Mixture-of-Transformers (MoT) architecture to enable modality-specific computing. By incorporating latent tokens, this design effectively enhances the perceptual representation of the models. To improve reasoning capabilities, we introduce an iterative, self-evolving post-training paradigm. Furthermore, we employ on-policy distillation to transfer the advanced capabilities of the large model to the smaller variant, thereby maximizing the performance potential of the compact model. Extensive evaluations across 22 benchmarks, spanning visual perception, spatial reasoning, and embodied understanding, demonstrate the effectiveness of our approach. Our MoT-2B model outperforms similarly sized state-of-the-art models on 16 benchmarks, while the 32B variant achieves performance comparable to frontier models such as Gemini 3.0 Pro. In downstream robot control experiments, we leverage our robust VLM foundation to train an effective Vision-Language-Action (VLA) model, achieving compelling results in real-world physical evaluations. Code and models are open-sourced at https://github.com/Tencent-Hunyuan/HY-Embodied.
PDF1263April 11, 2026