ChatPaper.aiChatPaper

HY-Embodied-0.5: Воплощенные базовые модели для агентов реального мира

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

April 8, 2026
Авторы: Tencent Robotics X, HY Vision Team, Xumin Yu, Zuyan Liu, Ziyi Wang, He Zhang, Yongming Rao, Fangfu Liu, Yani Zhang, Ruowen Zhao, Oran Wang, Yves Liang, Haitao Lin, Minghui Wang, Yubo Dong, Kevin Cheng, Bolin Ni, Rui Huang, Han Hu, Zhengyou Zhang, Linus, Shunyu Yao
cs.AI

Аннотация

Мы представляем HY-Embodied-0.5 — семейство базовых моделей, специально разработанных для реальных воплощенных агентов. Чтобы преодолеть разрыв между общими визуально-языковыми моделями (VLM) и требованиями воплощенных агентов, наши модели созданы для усиления ключевых способностей, необходимых для воплощенного интеллекта: пространственного и временного визуального восприятия, а также продвинутого воплощенного мышления для прогнозирования, взаимодействия и планирования. Комплекс HY-Embodied-0.5 включает две основные варианта: эффективную модель с 2 млрд активных параметров, предназначенную для развертывания на периферийных устройствах, и мощную модель с 32 млрд активных параметров, нацеленную на сложные рассуждения. Для поддержки детального визуального восприятия, критически важного для воплощенных задач, мы применяем архитектуру Mixture-of-Transformers (MoT) для обеспечения модально-специфичных вычислений. Благодаря включению латентных токенов эта конструкция эффективно улучшает перцептивные репрезентации моделей. Для повышения способностей к рассуждению мы вводим итеративную, саморазвивающуюся парадигму пост-обучения. Кроме того, мы используем дистилляцию по стратегии для передачи продвинутых возможностей большой модели малому варианту, тем самым максимизируя потенциал производительности компактной модели. Масштабные оценки на 22 бенчмарках, охватывающих визуальное восприятие, пространственные рассуждения и воплощенное понимание, демонстрируют эффективность нашего подхода. Наша модель MoT-2B превосходит модели аналогичного размера последнего поколения на 16 бенчмарках, в то время как вариант на 32 млрд параметров достигает производительности, сопоставимой с передовыми моделями, такими как Gemini 3.0 Pro. В экспериментах по управлению роботами мы используем нашу надежную VLM-основу для обучения эффективной Vision-Language-Action (VLA) модели, достигая убедительных результатов в реальных физических оценках. Код и модели находятся в открытом доступе по адресу https://github.com/Tencent-Hunyuan/HY-Embodied.
English
We introduce HY-Embodied-0.5, a family of foundation models specifically designed for real-world embodied agents. To bridge the gap between general Vision-Language Models (VLMs) and the demands of embodied agents, our models are developed to enhance the core capabilities required by embodied intelligence: spatial and temporal visual perception, alongside advanced embodied reasoning for prediction, interaction, and planning. The HY-Embodied-0.5 suite comprises two primary variants: an efficient model with 2B activated parameters designed for edge deployment, and a powerful model with 32B activated parameters targeted for complex reasoning. To support the fine-grained visual perception essential for embodied tasks, we adopt a Mixture-of-Transformers (MoT) architecture to enable modality-specific computing. By incorporating latent tokens, this design effectively enhances the perceptual representation of the models. To improve reasoning capabilities, we introduce an iterative, self-evolving post-training paradigm. Furthermore, we employ on-policy distillation to transfer the advanced capabilities of the large model to the smaller variant, thereby maximizing the performance potential of the compact model. Extensive evaluations across 22 benchmarks, spanning visual perception, spatial reasoning, and embodied understanding, demonstrate the effectiveness of our approach. Our MoT-2B model outperforms similarly sized state-of-the-art models on 16 benchmarks, while the 32B variant achieves performance comparable to frontier models such as Gemini 3.0 Pro. In downstream robot control experiments, we leverage our robust VLM foundation to train an effective Vision-Language-Action (VLA) model, achieving compelling results in real-world physical evaluations. Code and models are open-sourced at https://github.com/Tencent-Hunyuan/HY-Embodied.
PDF1263April 11, 2026