ChatPaper.aiChatPaper

RynnEC: Integrando MLLMs no Mundo Embarcado

RynnEC: Bringing MLLMs into Embodied World

August 19, 2025
Autores: Ronghao Dang, Yuqian Yuan, Yunxuan Mao, Kehan Li, Jiangpin Liu, Zhikai Wang, Xin Li, Fan Wang, Deli Zhao
cs.AI

Resumo

Apresentamos o RynnEC, um modelo multimodal de linguagem de grande escala projetado para cognição incorporada em vídeos. Construído sobre um modelo base de visão e linguagem de propósito geral, o RynnEC incorpora um codificador de regiões e um decodificador de máscaras, permitindo interação flexível em nível de região em vídeos. Apesar de sua arquitetura compacta, o RynnEC alcança desempenho de ponta em compreensão de propriedades de objetos, segmentação de objetos e raciocínio espacial. Conceitualmente, ele oferece um paradigma de vídeo centrado em regiões para o "cérebro" de agentes incorporados, proporcionando percepção refinada do mundo físico e permitindo interações mais precisas. Para mitigar a escassez de conjuntos de dados 3D anotados, propomos um pipeline baseado em vídeos egocêntricos para gerar dados de cognição incorporada. Além disso, introduzimos o RynnEC-Bench, um benchmark centrado em regiões para avaliar capacidades cognitivas incorporadas. Antecipamos que o RynnEC impulsionará o desenvolvimento de núcleos cognitivos de propósito geral para agentes incorporados e facilitará a generalização em diversas tarefas incorporadas. O código, os pontos de verificação do modelo e o benchmark estão disponíveis em: https://github.com/alibaba-damo-academy/RynnEC
English
We introduce RynnEC, a video multimodal large language model designed for embodied cognition. Built upon a general-purpose vision-language foundation model, RynnEC incorporates a region encoder and a mask decoder, enabling flexible region-level video interaction. Despite its compact architecture, RynnEC achieves state-of-the-art performance in object property understanding, object segmentation, and spatial reasoning. Conceptually, it offers a region-centric video paradigm for the brain of embodied agents, providing fine-grained perception of the physical world and enabling more precise interactions. To mitigate the scarcity of annotated 3D datasets, we propose an egocentric video based pipeline for generating embodied cognition data. Furthermore, we introduce RynnEC-Bench, a region-centered benchmark for evaluating embodied cognitive capabilities. We anticipate that RynnEC will advance the development of general-purpose cognitive cores for embodied agents and facilitate generalization across diverse embodied tasks. The code, model checkpoints, and benchmark are available at: https://github.com/alibaba-damo-academy/RynnEC
PDF182August 21, 2025