TwinBrainVLA: Het Vrijmaken van het Potentieel van Generalistische VLMs voor Belichaamde Taken via Asymmetrisch Mixture-of-Transformers

Samenvatting

Standaard Vision-Language-Action (VLA)-modellen fine-tunen doorgaans een monolithisch Vision-Language Model (VLM)-backbone expliciet voor robotbesturing. Deze aanpak creëert echter een kritieke spanning tussen het behouden van hoogwaardig algemeen semantisch begrip en het aanleren van laagwaardige, fijnmazige sensomotorische vaardigheden, wat vaak leidt tot 'catastrofale vergetelheid' van de open-wereldcapaciteiten van het model. Om dit conflict op te lossen, introduceren wij TwinBrainVLA, een nieuwe architectuur die een generalistische VLM die universeel semantisch begrip behoudt, coördineert met een gespecialiseerde VLM die is toegewijd aan belichaamde proprioceptie voor gezamenlijke robotbesturing. TwinBrainVLA brengt een bevroren "Linker Hersenhelft", die robuuste algemene visuele redeneervaardigheden behoudt, synergetisch samen met een trainbare "Rechter Hersenhelft", gespecialiseerd in belichaamde perceptie, via een nieuw Asymmetrisch Mixture-of-Transformers (AsyMoT)-mechanisme. Dit ontwerp stelt de Rechter Hersenhelft in staat om dynamisch semantische kennis op te vragen uit de bevroren Linker Hersenhelft en deze te versmelten met proprioceptieve toestanden, wat een rijke conditionering biedt voor een Flow-Matching Actie-Expert om precieze continue besturingen te genereren. Uitgebreide experimenten op de SimplerEnv- en RoboCasa-benchmarks tonen aan dat TwinBrainVLA superieure manipulatieresultaten behaalt in vergelijking met state-of-the-art baseline-modellen, terwijl het expliciet de uitgebreide visuele begripscapaciteiten van het vooraf getrainde VLM behoudt. Dit biedt een veelbelovende richting voor het bouwen van robots voor algemene toepassingen die gelijktijdig hoogwaardig semantisch begrip en laagwaardige fysieke behendigheid bereiken.

English

Standard Vision-Language-Action (VLA) models typically fine-tune a monolithic Vision-Language Model (VLM) backbone explicitly for robotic control. However, this approach creates a critical tension between maintaining high-level general semantic understanding and learning low-level, fine-grained sensorimotor skills, often leading to "catastrophic forgetting" of the model's open-world capabilities. To resolve this conflict, we introduce TwinBrainVLA, a novel architecture that coordinates a generalist VLM retaining universal semantic understanding and a specialist VLM dedicated to embodied proprioception for joint robotic control. TwinBrainVLA synergizes a frozen "Left Brain", which retains robust general visual reasoning, with a trainable "Right Brain", specialized for embodied perception, via a novel Asymmetric Mixture-of-Transformers (AsyMoT) mechanism. This design allows the Right Brain to dynamically query semantic knowledge from the frozen Left Brain and fuse it with proprioceptive states, providing rich conditioning for a Flow-Matching Action Expert to generate precise continuous controls. Extensive experiments on SimplerEnv and RoboCasa benchmarks demonstrate that TwinBrainVLA achieves superior manipulation performance compared to state-of-the-art baselines while explicitly preserving the comprehensive visual understanding capabilities of the pre-trained VLM, offering a promising direction for building general-purpose robots that simultaneously achieve high-level semantic understanding and low-level physical dexterity.

TwinBrainVLA: Het Vrijmaken van het Potentieel van Generalistische VLMs voor Belichaamde Taken via Asymmetrisch Mixture-of-Transformers

TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

Samenvatting

Support