ChatPaper.aiChatPaper

RynnEC: MLLM을 구현된 세계로 도입하기

RynnEC: Bringing MLLMs into Embodied World

August 19, 2025
저자: Ronghao Dang, Yuqian Yuan, Yunxuan Mao, Kehan Li, Jiangpin Liu, Zhikai Wang, Xin Li, Fan Wang, Deli Zhao
cs.AI

초록

우리는 체화된 인지(embodied cognition)를 위해 설계된 비디오 멀티모달 대형 언어 모델인 RynnEC를 소개한다. RynnEC는 범용 비전-언어 기반 모델을 기반으로 구축되었으며, 지역 인코더(region encoder)와 마스크 디코더(mask decoder)를 통합하여 유연한 지역 수준의 비디오 상호작용을 가능하게 한다. 컴팩트한 아키텍처에도 불구하고, RynnEC는 객체 속성 이해, 객체 분할, 공간 추론 분야에서 최첨단 성능을 달성한다. 개념적으로, 이 모델은 체화된 에이전트의 두뇌를 위한 지역 중심의 비디오 패러다임을 제공하며, 물리적 세계에 대한 세밀한 인식을 가능하게 하고 더 정확한 상호작용을 지원한다. 주석이 달린 3D 데이터셋의 부족 문제를 완화하기 위해, 우리는 체화된 인지 데이터를 생성하기 위한 자기 중심적(egocentric) 비디오 기반 파이프라인을 제안한다. 또한, 체화된 인지 능력을 평가하기 위한 지역 중심 벤치마크인 RynnEC-Bench를 소개한다. 우리는 RynnEC가 체화된 에이전트를 위한 범용 인지 코어의 개발을 촉진하고 다양한 체화된 작업 간 일반화를 용이하게 할 것으로 기대한다. 코드, 모델 체크포인트, 벤치마크는 https://github.com/alibaba-damo-academy/RynnEC에서 확인할 수 있다.
English
We introduce RynnEC, a video multimodal large language model designed for embodied cognition. Built upon a general-purpose vision-language foundation model, RynnEC incorporates a region encoder and a mask decoder, enabling flexible region-level video interaction. Despite its compact architecture, RynnEC achieves state-of-the-art performance in object property understanding, object segmentation, and spatial reasoning. Conceptually, it offers a region-centric video paradigm for the brain of embodied agents, providing fine-grained perception of the physical world and enabling more precise interactions. To mitigate the scarcity of annotated 3D datasets, we propose an egocentric video based pipeline for generating embodied cognition data. Furthermore, we introduce RynnEC-Bench, a region-centered benchmark for evaluating embodied cognitive capabilities. We anticipate that RynnEC will advance the development of general-purpose cognitive cores for embodied agents and facilitate generalization across diverse embodied tasks. The code, model checkpoints, and benchmark are available at: https://github.com/alibaba-damo-academy/RynnEC
PDF122August 21, 2025