Cerveau Visuel Incarné : Faire Voir, Penser et Contrôler dans les Espaces aux Modèles de Langage Multimodaux à Grande Échelle
Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces
May 30, 2025
Auteurs: Gen Luo, Ganlin Yang, Ziyang Gong, Guanzhou Chen, Haonan Duan, Erfei Cui, Ronglei Tong, Zhi Hou, Tianyi Zhang, Zhe Chen, Shenglong Ye, Lewei Lu, Jingbo Wang, Wenhai Wang, Jifeng Dai, Yu Qiao, Rongrong Ji, Xizhou Zhu
cs.AI
Résumé
Les progrès remarquables des modèles de langage multimodaux de grande envergure (MLLMs) ont suscité un intérêt croissant pour leur extension à des entités physiques telles que les robots à pattes. Cela nécessite généralement que les MLLMs maîtrisent non seulement des capacités de compréhension multimodale, mais intègrent également des aptitudes de raisonnement visuo-spatial et d'interaction physique. Cependant, les méthodes existantes peinent à unifier ces capacités en raison de leurs différences fondamentales. Dans cet article, nous présentons le **Visual Embodied Brain (VeBrain)**, un cadre unifié pour la perception, le raisonnement et le contrôle dans le monde réel. VeBrain reformule le contrôle robotique en tâches MLLM basées sur le texte dans l'espace visuel 2D, unifiant ainsi les objectifs et les espaces de mappage des différentes tâches. Ensuite, un adaptateur robotique innovant est proposé pour convertir les signaux de contrôle textuels des MLLMs en politiques de mouvement pour les robots réels. Du point de vue des données, nous introduisons également **VeBrain-600k**, un ensemble de données d'instructions de haute qualité couvrant diverses capacités de VeBrain. Dans VeBrain-600k, nous avons consacré des centaines d'heures à collecter, organiser et annoter les données, et avons adopté une chaîne de pensée multimodale (CoT) pour mélanger les différentes capacités dans une seule conversation. Des expériences approfondies sur 13 benchmarks multimodaux et 5 benchmarks d'intelligence spatiale démontrent la performance supérieure de VeBrain par rapport aux MLLMs existants comme Qwen2.5-VL. Lorsqu'il est déployé sur des robots à pattes et des bras robotiques, VeBrain montre une forte adaptabilité, flexibilité et capacité de composition par rapport aux méthodes existantes. Par exemple, comparé à Qwen2.5-VL, VeBrain non seulement réalise des gains substantiels sur MMVet de +5,6 %, mais excelle également dans les tâches de robots à pattes avec des gains moyens de +50 %.
English
The remarkable progress of Multimodal Large Language Models (MLLMs) has
attracted increasing attention to extend them to physical entities like legged
robot. This typically requires MLLMs to not only grasp multimodal understanding
abilities, but also integrate visual-spatial reasoning and physical interaction
capabilities. Nevertheless,existing methods struggle to unify these
capabilities due to their fundamental differences.In this paper, we present the
Visual Embodied Brain (VeBrain), a unified framework for perception, reasoning,
and control in real world. VeBrain reformulates robotic control into common
text-based MLLM tasks in the 2D visual space, thus unifying the objectives and
mapping spaces of different tasks. Then, a novel robotic adapter is proposed to
convert textual control signals from MLLMs to motion policies of real robots.
From the data perspective, we further introduce VeBrain-600k, a high-quality
instruction dataset encompassing various capabilities of VeBrain. In
VeBrain-600k, we take hundreds of hours to collect, curate and annotate the
data, and adopt multimodal chain-of-thought(CoT) to mix the different
capabilities into a single conversation. Extensive experiments on 13 multimodal
benchmarks and 5 spatial intelligence benchmarks demonstrate the superior
performance of VeBrain to existing MLLMs like Qwen2.5-VL. When deployed to
legged robots and robotic arms, VeBrain shows strong adaptability, flexibility,
and compositional capabilities compared to existing methods. For example,
compared to Qwen2.5-VL, VeBrain not only achieves substantial gains on MMVet by
+5.6%, but also excels in legged robot tasks with +50% average gains.