Cerebro Visual Encarnado: Permitir que los Modelos de Lenguaje Multimodales a Gran Escala Vean, Piensen y Controlen en Espacios
Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces
May 30, 2025
Autores: Gen Luo, Ganlin Yang, Ziyang Gong, Guanzhou Chen, Haonan Duan, Erfei Cui, Ronglei Tong, Zhi Hou, Tianyi Zhang, Zhe Chen, Shenglong Ye, Lewei Lu, Jingbo Wang, Wenhai Wang, Jifeng Dai, Yu Qiao, Rongrong Ji, Xizhou Zhu
cs.AI
Resumen
El notable progreso de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) ha atraído una atención creciente hacia su extensión a entidades físicas como los robots con patas. Esto típicamente requiere que los MLLMs no solo adquieran habilidades de comprensión multimodal, sino que también integren capacidades de razonamiento visual-espacial e interacción física. Sin embargo, los métodos existentes luchan por unificar estas capacidades debido a sus diferencias fundamentales. En este artículo, presentamos el Cerebro Visual Embebido (VeBrain), un marco unificado para la percepción, el razonamiento y el control en el mundo real. VeBrain reformula el control robótico en tareas comunes basadas en texto de MLLMs en el espacio visual 2D, unificando así los objetivos y los espacios de mapeo de diferentes tareas. Luego, se propone un nuevo adaptador robótico para convertir las señales de control textual de los MLLMs en políticas de movimiento de robots reales. Desde la perspectiva de los datos, introducimos además VeBrain-600k, un conjunto de datos de instrucciones de alta calidad que abarca diversas capacidades de VeBrain. En VeBrain-600k, dedicamos cientos de horas a recopilar, curar y anotar los datos, y adoptamos el razonamiento en cadena multimodal (CoT, por sus siglas en inglés) para mezclar las diferentes capacidades en una sola conversación. Experimentos extensos en 13 benchmarks multimodales y 5 benchmarks de inteligencia espacial demuestran el rendimiento superior de VeBrain en comparación con MLLMs existentes como Qwen2.5-VL. Cuando se despliega en robots con patas y brazos robóticos, VeBrain muestra una fuerte adaptabilidad, flexibilidad y capacidades compositivas en comparación con los métodos existentes. Por ejemplo, en comparación con Qwen2.5-VL, VeBrain no solo logra mejoras sustanciales en MMVet con un +5.6%, sino que también sobresale en tareas de robots con patas con un promedio de ganancias del +50%.
English
The remarkable progress of Multimodal Large Language Models (MLLMs) has
attracted increasing attention to extend them to physical entities like legged
robot. This typically requires MLLMs to not only grasp multimodal understanding
abilities, but also integrate visual-spatial reasoning and physical interaction
capabilities. Nevertheless,existing methods struggle to unify these
capabilities due to their fundamental differences.In this paper, we present the
Visual Embodied Brain (VeBrain), a unified framework for perception, reasoning,
and control in real world. VeBrain reformulates robotic control into common
text-based MLLM tasks in the 2D visual space, thus unifying the objectives and
mapping spaces of different tasks. Then, a novel robotic adapter is proposed to
convert textual control signals from MLLMs to motion policies of real robots.
From the data perspective, we further introduce VeBrain-600k, a high-quality
instruction dataset encompassing various capabilities of VeBrain. In
VeBrain-600k, we take hundreds of hours to collect, curate and annotate the
data, and adopt multimodal chain-of-thought(CoT) to mix the different
capabilities into a single conversation. Extensive experiments on 13 multimodal
benchmarks and 5 spatial intelligence benchmarks demonstrate the superior
performance of VeBrain to existing MLLMs like Qwen2.5-VL. When deployed to
legged robots and robotic arms, VeBrain shows strong adaptability, flexibility,
and compositional capabilities compared to existing methods. For example,
compared to Qwen2.5-VL, VeBrain not only achieves substantial gains on MMVet by
+5.6%, but also excels in legged robot tasks with +50% average gains.