ChatPaper.aiChatPaper

RynnEC: Integrare i Modelli Linguistici Multimodali nel Mondo Embodied

RynnEC: Bringing MLLMs into Embodied World

August 19, 2025
Autori: Ronghao Dang, Yuqian Yuan, Yunxuan Mao, Kehan Li, Jiangpin Liu, Zhikai Wang, Xin Li, Fan Wang, Deli Zhao
cs.AI

Abstract

Presentiamo RynnEC, un modello linguistico multimodale per video progettato per la cognizione incarnata. Basato su un modello di base visione-linguaggio a scopo generale, RynnEC incorpora un codificatore di regioni e un decodificatore di maschere, consentendo un'interazione flessibile a livello di regione con i video. Nonostante la sua architettura compatta, RynnEC raggiunge prestazioni all'avanguardia nella comprensione delle proprietà degli oggetti, nella segmentazione degli oggetti e nel ragionamento spaziale. Concettualmente, offre un paradigma video centrato sulle regioni per il cervello degli agenti incarnati, fornendo una percezione fine del mondo fisico e abilitando interazioni più precise. Per mitigare la scarsità di dataset 3D annotati, proponiamo una pipeline basata su video egocentrici per generare dati di cognizione incarnata. Inoltre, introduciamo RynnEC-Bench, un benchmark centrato sulle regioni per valutare le capacità cognitive incarnate. Anticipiamo che RynnEC promuoverà lo sviluppo di nuclei cognitivi a scopo generale per agenti incarnati e faciliterà la generalizzazione attraverso una varietà di compiti incarnati. Il codice, i checkpoint del modello e il benchmark sono disponibili all'indirizzo: https://github.com/alibaba-damo-academy/RynnEC
English
We introduce RynnEC, a video multimodal large language model designed for embodied cognition. Built upon a general-purpose vision-language foundation model, RynnEC incorporates a region encoder and a mask decoder, enabling flexible region-level video interaction. Despite its compact architecture, RynnEC achieves state-of-the-art performance in object property understanding, object segmentation, and spatial reasoning. Conceptually, it offers a region-centric video paradigm for the brain of embodied agents, providing fine-grained perception of the physical world and enabling more precise interactions. To mitigate the scarcity of annotated 3D datasets, we propose an egocentric video based pipeline for generating embodied cognition data. Furthermore, we introduce RynnEC-Bench, a region-centered benchmark for evaluating embodied cognitive capabilities. We anticipate that RynnEC will advance the development of general-purpose cognitive cores for embodied agents and facilitate generalization across diverse embodied tasks. The code, model checkpoints, and benchmark are available at: https://github.com/alibaba-damo-academy/RynnEC
PDF182August 21, 2025