ChatPaper.aiChatPaper

HY-Embodied-0.5: 실제 환경 에이전트를 위한 구현 기반 파운데이션 모델

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

April 8, 2026
저자: Tencent Robotics X, HY Vision Team, Xumin Yu, Zuyan Liu, Ziyi Wang, He Zhang, Yongming Rao, Fangfu Liu, Yani Zhang, Ruowen Zhao, Oran Wang, Yves Liang, Haitao Lin, Minghui Wang, Yubo Dong, Kevin Cheng, Bolin Ni, Rui Huang, Han Hu, Zhengyou Zhang, Linus, Shunyu Yao
cs.AI

초록

본 논문에서는 현실 세계의 구현 에이전트를 위해 특화된 파운데이션 모델 패밀리인 HY-Embodied-0.5를 소개한다. 일반적인 비전-언어 모델(VLM)과 구현 에이전트의 요구 사항 간의 간극을 해소하기 위해, 본 모델은 구현 인텔리전스에 필요한 핵심 역량인 시공간적 시각 인식과 예측, 상호작용, 계획을 위한 고급 구현 추론 능력을 강화하도록 개발되었다. HY-Embodied-0.5 제품군은 에지 디바이스 배포를 위해 설계된 20억 개의 활성화 파라미터를 가진 효율적인 모델과 복잡한 추론을 목표로 320억 개의 활성화 파라미터를 가진 강력한 모델, 이렇게 두 가지 주요 변종으로 구성된다. 구현 작업에 필수적인 정밀 시각 인식을 지원하기 위해, 우리는 모달리티별 연산을 가능하게 하는 Mixture-of-Transformers(MoT) 아키텍처를 채택하였다. 잠재 토큰을 통합함으로써 이 설계는 모델의 인식 표현력을 효과적으로 향상시킨다. 추론 능력 향상을 위해 반복적이고 자기 진화하는 사후 학습 패러다임을 도입하였으며, 더 나아가 온-폴리시 지식 증류를 통해 대형 모델의 고급 능력을 소형 변종으로 이전함으로써 컴팩트 모델의 성능 잠재력을 극대화하였다. 시각 인식, 공간 추론, 구현 이해를 아우르는 22개 벤치마크에 걸친 광범위한 평가를 통해 우리 접근법의 효과성을 입증했다. 우리의 MoT-2B 모델은 16개 벤치마크에서 유사 규모의 최첨단 모델들을 능가하였으며, 320B 변종은 Gemini 3.0 Pro와 같은 최고 수준 모델에 버금가는 성능을 달성했다. 하류 로봇 제어 실험에서는 강력한 VLM 기반을 활용하여 효과적인 비전-언어-행동(VLA) 모델을 학습시켰으며, 실제 물리 환경 평가에서 설득력 있는 결과를 얻었다. 코드와 모델은 https://github.com/Tencent-Hunyuan/HY-Embodied에서 공개되었다.
English
We introduce HY-Embodied-0.5, a family of foundation models specifically designed for real-world embodied agents. To bridge the gap between general Vision-Language Models (VLMs) and the demands of embodied agents, our models are developed to enhance the core capabilities required by embodied intelligence: spatial and temporal visual perception, alongside advanced embodied reasoning for prediction, interaction, and planning. The HY-Embodied-0.5 suite comprises two primary variants: an efficient model with 2B activated parameters designed for edge deployment, and a powerful model with 32B activated parameters targeted for complex reasoning. To support the fine-grained visual perception essential for embodied tasks, we adopt a Mixture-of-Transformers (MoT) architecture to enable modality-specific computing. By incorporating latent tokens, this design effectively enhances the perceptual representation of the models. To improve reasoning capabilities, we introduce an iterative, self-evolving post-training paradigm. Furthermore, we employ on-policy distillation to transfer the advanced capabilities of the large model to the smaller variant, thereby maximizing the performance potential of the compact model. Extensive evaluations across 22 benchmarks, spanning visual perception, spatial reasoning, and embodied understanding, demonstrate the effectiveness of our approach. Our MoT-2B model outperforms similarly sized state-of-the-art models on 16 benchmarks, while the 32B variant achieves performance comparable to frontier models such as Gemini 3.0 Pro. In downstream robot control experiments, we leverage our robust VLM foundation to train an effective Vision-Language-Action (VLA) model, achieving compelling results in real-world physical evaluations. Code and models are open-sourced at https://github.com/Tencent-Hunyuan/HY-Embodied.
PDF1263April 11, 2026