ChatPaper.aiChatPaper

TwinBrainVLA : Libérer le potentiel des modèles de langage visuel généralistes pour les tâches incarnées via un mélange asymétrique de transformateurs

TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

January 20, 2026
papers.authors: Bin Yu, Shijie Lian, Xiaopeng Lin, Yuliang Wei, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Xinming Wang, Bailing Wang, Cong Huang, Kai Chen
cs.AI

papers.abstract

Les modèles standard Vision-Langage-Action (VLA) ajustent généralement de manière fine un modèle de base Vision-Langage (VLM) monolithique explicitement pour le contrôle robotique. Cependant, cette approche crée une tension critique entre le maintien d'une compréhension sémantique générale de haut niveau et l'apprentissage de compétences sensori-motrices fines et de bas niveau, conduisant souvent à un « oubli catastrophique » des capacités généralistes du modèle. Pour résoudre ce conflit, nous présentons TwinBrainVLA, une architecture novatrice qui coordonne un VLM généraliste conservant une compréhension sémantique universelle et un VLM spécialisé dédié à la proprioception incarnée pour un contrôle robotique conjoint. TwinBrainVLA synergise un « Cerveau Gauche » gelé, qui conserve un raisonnement visuel général robuste, avec un « Cerveau Droit » entraînable, spécialisé dans la perception incarnée, via un nouveau mécanisme de Mélange Asymétrique de Transformers (AsyMoT). Cette conception permet au Cerveau Droit d'interroger dynamiquement les connaissances sémantiques du Cerveau Gauche gelé et de les fusionner avec les états proprioceptifs, fournissant un conditionnement riche à un Expert d'Action par Appariement de Flux pour générer des contrôles continus précis. Des expériences approfondies sur les benchmarks SimplerEnv et RoboCasa démontrent que TwinBrainVLA atteint une performance de manipulation supérieure par rapport aux meilleures méthodes de référence tout en préservant explicitement les capacités complètes de compréhension visuelle du VLM pré-entraîné, offrant une voie prometteuse pour construire des robots à usage général qui réalisent simultanément une compréhension sémantique de haut niveau et une dextérité physique de bas niveau.
English
Standard Vision-Language-Action (VLA) models typically fine-tune a monolithic Vision-Language Model (VLM) backbone explicitly for robotic control. However, this approach creates a critical tension between maintaining high-level general semantic understanding and learning low-level, fine-grained sensorimotor skills, often leading to "catastrophic forgetting" of the model's open-world capabilities. To resolve this conflict, we introduce TwinBrainVLA, a novel architecture that coordinates a generalist VLM retaining universal semantic understanding and a specialist VLM dedicated to embodied proprioception for joint robotic control. TwinBrainVLA synergizes a frozen "Left Brain", which retains robust general visual reasoning, with a trainable "Right Brain", specialized for embodied perception, via a novel Asymmetric Mixture-of-Transformers (AsyMoT) mechanism. This design allows the Right Brain to dynamically query semantic knowledge from the frozen Left Brain and fuse it with proprioceptive states, providing rich conditioning for a Flow-Matching Action Expert to generate precise continuous controls. Extensive experiments on SimplerEnv and RoboCasa benchmarks demonstrate that TwinBrainVLA achieves superior manipulation performance compared to state-of-the-art baselines while explicitly preserving the comprehensive visual understanding capabilities of the pre-trained VLM, offering a promising direction for building general-purpose robots that simultaneously achieve high-level semantic understanding and low-level physical dexterity.
PDF521January 27, 2026