RynnEC: MLLM's integreren in de fysieke wereld
RynnEC: Bringing MLLMs into Embodied World
August 19, 2025
Auteurs: Ronghao Dang, Yuqian Yuan, Yunxuan Mao, Kehan Li, Jiangpin Liu, Zhikai Wang, Xin Li, Fan Wang, Deli Zhao
cs.AI
Samenvatting
We introduceren RynnEC, een multimodale grote taalmodellen voor video, ontworpen voor belichaamde cognitie. Gebouwd op een algemeen visie-taal basis model, integreert RynnEC een regio-encoder en een masker-decoder, waardoor flexibele regio-niveau video-interactie mogelijk wordt. Ondanks zijn compacte architectuur behaalt RynnEC state-of-the-art prestaties in het begrijpen van objecteigenschappen, objectsegmentatie en ruimtelijk redeneren. Conceptueel biedt het een regio-centrisch videoparadigma voor de hersenen van belichaamde agenten, wat een fijnmazige waarneming van de fysieke wereld mogelijk maakt en preciezere interacties faciliteert. Om het gebrek aan geannoteerde 3D-datasets te verlichten, stellen we een egocentrische video-gebaseerde pijplijn voor voor het genereren van belichaamde cognitiegegevens. Bovendien introduceren we RynnEC-Bench, een regio-gecentreerde benchmark voor het evalueren van belichaamde cognitieve vaardigheden. We verwachten dat RynnEC de ontwikkeling van algemene cognitieve kernen voor belichaamde agenten zal bevorderen en generalisatie over diverse belichaamde taken zal vergemakkelijken. De code, modelcheckpoints en benchmark zijn beschikbaar op: https://github.com/alibaba-damo-academy/RynnEC
English
We introduce RynnEC, a video multimodal large language model designed for
embodied cognition. Built upon a general-purpose vision-language foundation
model, RynnEC incorporates a region encoder and a mask decoder, enabling
flexible region-level video interaction. Despite its compact architecture,
RynnEC achieves state-of-the-art performance in object property understanding,
object segmentation, and spatial reasoning. Conceptually, it offers a
region-centric video paradigm for the brain of embodied agents, providing
fine-grained perception of the physical world and enabling more precise
interactions. To mitigate the scarcity of annotated 3D datasets, we propose an
egocentric video based pipeline for generating embodied cognition data.
Furthermore, we introduce RynnEC-Bench, a region-centered benchmark for
evaluating embodied cognitive capabilities. We anticipate that RynnEC will
advance the development of general-purpose cognitive cores for embodied agents
and facilitate generalization across diverse embodied tasks. The code, model
checkpoints, and benchmark are available at:
https://github.com/alibaba-damo-academy/RynnEC