TwinBrainVLA: Sfruttare il Potenziale dei VLM Generalisti per Compiti Embodied tramite Miscela Asimmetrica di Trasformatori
TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers
January 20, 2026
Autori: Bin Yu, Shijie Lian, Xiaopeng Lin, Yuliang Wei, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Xinming Wang, Bailing Wang, Cong Huang, Kai Chen
cs.AI
Abstract
I modelli standard Vision-Language-Action (VLA) tipicamente mettono a punto in modo fine (fine-tune) un backbone monolitico di un modello visione-linguaggio (VLM) esplicitamente per il controllo robotico. Tuttavia, questo approccio crea una tensione critica tra il mantenimento di una comprensione semantica generale di alto livello e l'apprendimento di abilità sensorimotorie di basso livello e granulari, portando spesso a un "oblio catastrofico" delle capacità open-world del modello. Per risolvere questo conflitto, introduciamo TwinBrainVLA, un'architettura innovativa che coordina un VLM generalista, che conserva la comprensione semantica universale, e un VLM specialista, dedicato alla propriocezione embodied, per il controllo robotico congiunto. TwinBrainVLA sinergizza un "Cervello Sinistro" congelato (frozen), che mantiene un solido ragionamento visivo generale, con un "Cervello Destro" addestrabile, specializzato nella percezione embodied, attraverso un nuovo meccanismo di Asymmetric Mixture-of-Transformers (AsyMoT). Questo design permette al Cervello Destro di interrogare dinamicamente la conoscenza semantica dal Cervello Sinistro congelato e di fondere questa conoscenza con gli stati propriocettivi, fornendo un condizionamento ricco per un Action Expert basato sul Flow Matching per generare controlli continui e precisi. Esperimenti estensivi sui benchmark SimplerEnv e RoboCasa dimostrano che TwinBrainVLA raggiunge prestazioni di manipolazione superiori rispetto ai baseline state-of-the-art, preservando esplicitamente le capacità di comprensione visiva completa del VLM pre-addestrato, offrendo una direzione promettente per la costruzione di robot a scopo generale che raggiungono simultaneamente un'elevata comprensione semantica e una destrezza fisica di basso livello.
English
Standard Vision-Language-Action (VLA) models typically fine-tune a monolithic Vision-Language Model (VLM) backbone explicitly for robotic control. However, this approach creates a critical tension between maintaining high-level general semantic understanding and learning low-level, fine-grained sensorimotor skills, often leading to "catastrophic forgetting" of the model's open-world capabilities. To resolve this conflict, we introduce TwinBrainVLA, a novel architecture that coordinates a generalist VLM retaining universal semantic understanding and a specialist VLM dedicated to embodied proprioception for joint robotic control. TwinBrainVLA synergizes a frozen "Left Brain", which retains robust general visual reasoning, with a trainable "Right Brain", specialized for embodied perception, via a novel Asymmetric Mixture-of-Transformers (AsyMoT) mechanism. This design allows the Right Brain to dynamically query semantic knowledge from the frozen Left Brain and fuse it with proprioceptive states, providing rich conditioning for a Flow-Matching Action Expert to generate precise continuous controls. Extensive experiments on SimplerEnv and RoboCasa benchmarks demonstrate that TwinBrainVLA achieves superior manipulation performance compared to state-of-the-art baselines while explicitly preserving the comprehensive visual understanding capabilities of the pre-trained VLM, offering a promising direction for building general-purpose robots that simultaneously achieve high-level semantic understanding and low-level physical dexterity.