RynnEC: Integrando MLLMs no Mundo Embarcado
RynnEC: Bringing MLLMs into Embodied World
August 19, 2025
Autores: Ronghao Dang, Yuqian Yuan, Yunxuan Mao, Kehan Li, Jiangpin Liu, Zhikai Wang, Xin Li, Fan Wang, Deli Zhao
cs.AI
Resumo
Apresentamos o RynnEC, um modelo multimodal de linguagem de grande escala projetado para cognição incorporada em vídeos. Construído sobre um modelo base de visão e linguagem de propósito geral, o RynnEC incorpora um codificador de regiões e um decodificador de máscaras, permitindo interação flexível em nível de região em vídeos. Apesar de sua arquitetura compacta, o RynnEC alcança desempenho de ponta em compreensão de propriedades de objetos, segmentação de objetos e raciocínio espacial. Conceitualmente, ele oferece um paradigma de vídeo centrado em regiões para o "cérebro" de agentes incorporados, proporcionando percepção refinada do mundo físico e permitindo interações mais precisas. Para mitigar a escassez de conjuntos de dados 3D anotados, propomos um pipeline baseado em vídeos egocêntricos para gerar dados de cognição incorporada. Além disso, introduzimos o RynnEC-Bench, um benchmark centrado em regiões para avaliar capacidades cognitivas incorporadas. Antecipamos que o RynnEC impulsionará o desenvolvimento de núcleos cognitivos de propósito geral para agentes incorporados e facilitará a generalização em diversas tarefas incorporadas. O código, os pontos de verificação do modelo e o benchmark estão disponíveis em: https://github.com/alibaba-damo-academy/RynnEC
English
We introduce RynnEC, a video multimodal large language model designed for
embodied cognition. Built upon a general-purpose vision-language foundation
model, RynnEC incorporates a region encoder and a mask decoder, enabling
flexible region-level video interaction. Despite its compact architecture,
RynnEC achieves state-of-the-art performance in object property understanding,
object segmentation, and spatial reasoning. Conceptually, it offers a
region-centric video paradigm for the brain of embodied agents, providing
fine-grained perception of the physical world and enabling more precise
interactions. To mitigate the scarcity of annotated 3D datasets, we propose an
egocentric video based pipeline for generating embodied cognition data.
Furthermore, we introduce RynnEC-Bench, a region-centered benchmark for
evaluating embodied cognitive capabilities. We anticipate that RynnEC will
advance the development of general-purpose cognitive cores for embodied agents
and facilitate generalization across diverse embodied tasks. The code, model
checkpoints, and benchmark are available at:
https://github.com/alibaba-damo-academy/RynnEC