RynnEC: Внедрение MLLM в воплощённый мир
RynnEC: Bringing MLLMs into Embodied World
August 19, 2025
Авторы: Ronghao Dang, Yuqian Yuan, Yunxuan Mao, Kehan Li, Jiangpin Liu, Zhikai Wang, Xin Li, Fan Wang, Deli Zhao
cs.AI
Аннотация
Мы представляем RynnEC, видео-мультимодальную большую языковую модель, разработанную для воплощённого познания. Построенная на основе универсальной модели для обработки визуальных и текстовых данных, RynnEC включает в себя региональный кодировщик и декодер масок, что обеспечивает гибкое взаимодействие на уровне регионов в видео. Несмотря на компактную архитектуру, RynnEC демонстрирует наилучшие результаты в понимании свойств объектов, сегментации объектов и пространственном рассуждении. Концептуально она предлагает регионо-ориентированный подход к видео для "мозга" воплощённых агентов, обеспечивая детальное восприятие физического мира и более точное взаимодействие. Для решения проблемы нехватки аннотированных 3D-данных мы предлагаем конвейер на основе эгоцентричного видео для генерации данных воплощённого познания. Кроме того, мы представляем RynnEC-Bench, регионо-ориентированный бенчмарк для оценки когнитивных способностей воплощённых агентов. Мы ожидаем, что RynnEC ускорит разработку универсальных когнитивных ядер для воплощённых агентов и облегчит обобщение для разнообразных задач воплощённого познания. Код, контрольные точки модели и бенчмарк доступны по адресу: https://github.com/alibaba-damo-academy/RynnEC.
English
We introduce RynnEC, a video multimodal large language model designed for
embodied cognition. Built upon a general-purpose vision-language foundation
model, RynnEC incorporates a region encoder and a mask decoder, enabling
flexible region-level video interaction. Despite its compact architecture,
RynnEC achieves state-of-the-art performance in object property understanding,
object segmentation, and spatial reasoning. Conceptually, it offers a
region-centric video paradigm for the brain of embodied agents, providing
fine-grained perception of the physical world and enabling more precise
interactions. To mitigate the scarcity of annotated 3D datasets, we propose an
egocentric video based pipeline for generating embodied cognition data.
Furthermore, we introduce RynnEC-Bench, a region-centered benchmark for
evaluating embodied cognitive capabilities. We anticipate that RynnEC will
advance the development of general-purpose cognitive cores for embodied agents
and facilitate generalization across diverse embodied tasks. The code, model
checkpoints, and benchmark are available at:
https://github.com/alibaba-damo-academy/RynnEC