ChatPaper.aiChatPaper

Cervello Visivo Incorporato: Far Vedere, Pensare e Controllare negli Spazi ai Modelli Linguistici Multimodali di Grande Scala

Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

May 30, 2025
Autori: Gen Luo, Ganlin Yang, Ziyang Gong, Guanzhou Chen, Haonan Duan, Erfei Cui, Ronglei Tong, Zhi Hou, Tianyi Zhang, Zhe Chen, Shenglong Ye, Lewei Lu, Jingbo Wang, Wenhai Wang, Jifeng Dai, Yu Qiao, Rongrong Ji, Xizhou Zhu
cs.AI

Abstract

I notevoli progressi dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno attirato un'attenzione crescente verso la loro estensione a entità fisiche come i robot a zampe. Ciò richiede tipicamente che gli MLLMs non solo acquisiscano capacità di comprensione multimodale, ma integrino anche ragionamento visivo-spaziale e capacità di interazione fisica. Tuttavia, i metodi esistenti faticano a unificare queste capacità a causa delle loro differenze fondamentali. In questo articolo, presentiamo il Visual Embodied Brain (VeBrain), un framework unificato per la percezione, il ragionamento e il controllo nel mondo reale. VeBrain riformula il controllo robotico in comuni task basati su testo degli MLLMs nello spazio visivo 2D, unificando così gli obiettivi e gli spazi di mappatura di diversi compiti. Successivamente, viene proposto un nuovo adattatore robotico per convertire i segnali di controllo testuali degli MLLMs in politiche di movimento per robot reali. Dal punto di vista dei dati, introduciamo ulteriormente VeBrain-600k, un dataset di istruzioni di alta qualità che comprende varie capacità di VeBrain. In VeBrain-600k, abbiamo impiegato centinaia di ore per raccogliere, curare e annotare i dati, e abbiamo adottato il ragionamento a catena multimodale (CoT) per mescolare le diverse capacità in una singola conversazione. Esperimenti estensivi su 13 benchmark multimodali e 5 benchmark di intelligenza spaziale dimostrano la performance superiore di VeBrain rispetto agli MLLMs esistenti come Qwen2.5-VL. Quando implementato su robot a zampe e bracci robotici, VeBrain mostra una forte adattabilità, flessibilità e capacità compositiva rispetto ai metodi esistenti. Ad esempio, rispetto a Qwen2.5-VL, VeBrain non solo ottiene guadagni sostanziali su MMVet con un +5,6%, ma eccelle anche nei task con robot a zampe con guadagni medi del +50%.
English
The remarkable progress of Multimodal Large Language Models (MLLMs) has attracted increasing attention to extend them to physical entities like legged robot. This typically requires MLLMs to not only grasp multimodal understanding abilities, but also integrate visual-spatial reasoning and physical interaction capabilities. Nevertheless,existing methods struggle to unify these capabilities due to their fundamental differences.In this paper, we present the Visual Embodied Brain (VeBrain), a unified framework for perception, reasoning, and control in real world. VeBrain reformulates robotic control into common text-based MLLM tasks in the 2D visual space, thus unifying the objectives and mapping spaces of different tasks. Then, a novel robotic adapter is proposed to convert textual control signals from MLLMs to motion policies of real robots. From the data perspective, we further introduce VeBrain-600k, a high-quality instruction dataset encompassing various capabilities of VeBrain. In VeBrain-600k, we take hundreds of hours to collect, curate and annotate the data, and adopt multimodal chain-of-thought(CoT) to mix the different capabilities into a single conversation. Extensive experiments on 13 multimodal benchmarks and 5 spatial intelligence benchmarks demonstrate the superior performance of VeBrain to existing MLLMs like Qwen2.5-VL. When deployed to legged robots and robotic arms, VeBrain shows strong adaptability, flexibility, and compositional capabilities compared to existing methods. For example, compared to Qwen2.5-VL, VeBrain not only achieves substantial gains on MMVet by +5.6%, but also excels in legged robot tasks with +50% average gains.
PDF345June 4, 2025