RynnEC: Integrare i Modelli Linguistici Multimodali nel Mondo Embodied
RynnEC: Bringing MLLMs into Embodied World
August 19, 2025
Autori: Ronghao Dang, Yuqian Yuan, Yunxuan Mao, Kehan Li, Jiangpin Liu, Zhikai Wang, Xin Li, Fan Wang, Deli Zhao
cs.AI
Abstract
Presentiamo RynnEC, un modello linguistico multimodale per video progettato per la cognizione incarnata. Basato su un modello di base visione-linguaggio a scopo generale, RynnEC incorpora un codificatore di regioni e un decodificatore di maschere, consentendo un'interazione flessibile a livello di regione con i video. Nonostante la sua architettura compatta, RynnEC raggiunge prestazioni all'avanguardia nella comprensione delle proprietà degli oggetti, nella segmentazione degli oggetti e nel ragionamento spaziale. Concettualmente, offre un paradigma video centrato sulle regioni per il cervello degli agenti incarnati, fornendo una percezione fine del mondo fisico e abilitando interazioni più precise. Per mitigare la scarsità di dataset 3D annotati, proponiamo una pipeline basata su video egocentrici per generare dati di cognizione incarnata. Inoltre, introduciamo RynnEC-Bench, un benchmark centrato sulle regioni per valutare le capacità cognitive incarnate. Anticipiamo che RynnEC promuoverà lo sviluppo di nuclei cognitivi a scopo generale per agenti incarnati e faciliterà la generalizzazione attraverso una varietà di compiti incarnati. Il codice, i checkpoint del modello e il benchmark sono disponibili all'indirizzo: https://github.com/alibaba-damo-academy/RynnEC
English
We introduce RynnEC, a video multimodal large language model designed for
embodied cognition. Built upon a general-purpose vision-language foundation
model, RynnEC incorporates a region encoder and a mask decoder, enabling
flexible region-level video interaction. Despite its compact architecture,
RynnEC achieves state-of-the-art performance in object property understanding,
object segmentation, and spatial reasoning. Conceptually, it offers a
region-centric video paradigm for the brain of embodied agents, providing
fine-grained perception of the physical world and enabling more precise
interactions. To mitigate the scarcity of annotated 3D datasets, we propose an
egocentric video based pipeline for generating embodied cognition data.
Furthermore, we introduce RynnEC-Bench, a region-centered benchmark for
evaluating embodied cognitive capabilities. We anticipate that RynnEC will
advance the development of general-purpose cognitive cores for embodied agents
and facilitate generalization across diverse embodied tasks. The code, model
checkpoints, and benchmark are available at:
https://github.com/alibaba-damo-academy/RynnEC