TwinBrainVLA: Раскрытие потенциала универсальных VLM для задач воплощенного ИИ с помощью асимметричной смеси трансформеров
TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers
January 20, 2026
Авторы: Bin Yu, Shijie Lian, Xiaopeng Lin, Yuliang Wei, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Xinming Wang, Bailing Wang, Cong Huang, Kai Chen
cs.AI
Аннотация
Стандартные модели Vision-Language-Action (VLA) обычно дообучают монолитную базовую модель Vision-Language Model (VLM) явно для задач роботизированного управления. Однако такой подход создает ключевое противоречие между сохранением общих семантических представлений высокого уровня и обучением низкоуровневым, тонким сенсомоторным навыкам, что часто приводит к «катастрофическому забыванию» исходных возможностей модели в открытом мире. Для разрешения этого конфликта мы представляем TwinBrainVLA — новую архитектуру, которая координирует работу универсальной VLM, сохраняющей общее семантическое понимание, и специализированной VLM, ориентированной на проприоцептивное восприятие в телесной среде, для совместного управления роботом. TwinBrainVLA объединяет замороженное «Левое полушарие», сохраняющее robustное общее визуальное мышление, с обучаемым «Правым полушарием», специализированным на телесном восприятии, с помощью нового механизма Asymmetric Mixture-of-Transformers (AsyMoT). Такая конструкция позволяет Правому полушарию динамически запрашивать семантические знания у замороженного Левого полушария и объединять их с проприоцептивными состояниями, обеспечивая богатую conditioning-информацию для эксперта по действиям на основе Flow-Matching для генерации точных непрерывных управляющих сигналов. Многочисленные эксперименты на бенчмарках SimplerEnv и RoboCasa демонстрируют, что TwinBrainVLA достигает превосходной производительности в задачах манипулирования по сравнению с современными базовыми методами, при этом явно сохраняя комплексные возможности визуального понимания предобученной VLM, что открывает перспективное направление для создания роботов общего назначения, одновременно достигающих высокоуровневого семантического понимания и низкоуровневой физической ловкости.
English
Standard Vision-Language-Action (VLA) models typically fine-tune a monolithic Vision-Language Model (VLM) backbone explicitly for robotic control. However, this approach creates a critical tension between maintaining high-level general semantic understanding and learning low-level, fine-grained sensorimotor skills, often leading to "catastrophic forgetting" of the model's open-world capabilities. To resolve this conflict, we introduce TwinBrainVLA, a novel architecture that coordinates a generalist VLM retaining universal semantic understanding and a specialist VLM dedicated to embodied proprioception for joint robotic control. TwinBrainVLA synergizes a frozen "Left Brain", which retains robust general visual reasoning, with a trainable "Right Brain", specialized for embodied perception, via a novel Asymmetric Mixture-of-Transformers (AsyMoT) mechanism. This design allows the Right Brain to dynamically query semantic knowledge from the frozen Left Brain and fuse it with proprioceptive states, providing rich conditioning for a Flow-Matching Action Expert to generate precise continuous controls. Extensive experiments on SimplerEnv and RoboCasa benchmarks demonstrate that TwinBrainVLA achieves superior manipulation performance compared to state-of-the-art baselines while explicitly preserving the comprehensive visual understanding capabilities of the pre-trained VLM, offering a promising direction for building general-purpose robots that simultaneously achieve high-level semantic understanding and low-level physical dexterity.