ChatPaper.aiChatPaper

RynnEC: MLLMをエンボディードワールドに導入する

RynnEC: Bringing MLLMs into Embodied World

August 19, 2025
著者: Ronghao Dang, Yuqian Yuan, Yunxuan Mao, Kehan Li, Jiangpin Liu, Zhikai Wang, Xin Li, Fan Wang, Deli Zhao
cs.AI

要旨

我々は、身体化認知を目的としたビデオマルチモーダル大規模言語モデル「RynnEC」を紹介する。汎用視覚言語基盤モデルを基盤として構築されたRynnECは、領域エンコーダとマスクデコーダを組み込むことで、柔軟な領域レベルでのビデオインタラクションを可能にする。コンパクトなアーキテクチャにもかかわらず、RynnECは物体特性理解、物体セグメンテーション、空間推論において最先端の性能を達成する。概念的には、身体化エージェントの脳に対する領域中心のビデオパラダイムを提供し、物理世界の細粒度な知覚とより精密なインタラクションを可能にする。注釈付き3Dデータセットの不足を緩和するため、我々は身体化認知データを生成するためのエゴセントリックビデオベースのパイプラインを提案する。さらに、身体化認知能力を評価するための領域中心のベンチマーク「RynnEC-Bench」を導入する。我々は、RynnECが身体化エージェントの汎用認知コアの開発を推進し、多様な身体化タスク間での汎化を促進することを期待している。コード、モデルチェックポイント、およびベンチマークは以下で利用可能である: https://github.com/alibaba-damo-academy/RynnEC
English
We introduce RynnEC, a video multimodal large language model designed for embodied cognition. Built upon a general-purpose vision-language foundation model, RynnEC incorporates a region encoder and a mask decoder, enabling flexible region-level video interaction. Despite its compact architecture, RynnEC achieves state-of-the-art performance in object property understanding, object segmentation, and spatial reasoning. Conceptually, it offers a region-centric video paradigm for the brain of embodied agents, providing fine-grained perception of the physical world and enabling more precise interactions. To mitigate the scarcity of annotated 3D datasets, we propose an egocentric video based pipeline for generating embodied cognition data. Furthermore, we introduce RynnEC-Bench, a region-centered benchmark for evaluating embodied cognitive capabilities. We anticipate that RynnEC will advance the development of general-purpose cognitive cores for embodied agents and facilitate generalization across diverse embodied tasks. The code, model checkpoints, and benchmark are available at: https://github.com/alibaba-damo-academy/RynnEC
PDF122August 21, 2025