ChatPaper.aiChatPaper

TwinBrainVLA:非対称型Mixture-of-Transformersによる身体性タスクへの汎用VLMの可能性解放

TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

January 20, 2026
著者: Bin Yu, Shijie Lian, Xiaopeng Lin, Yuliang Wei, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Xinming Wang, Bailing Wang, Cong Huang, Kai Chen
cs.AI

要旨

標準的なVision-Language-Action(VLA)モデルは通常、ロボット制御のために単一のVision-Language Model(VLM)バックボーンを明示的にファインチューニングする。しかし、このアプローチは高レベルの汎用的な意味理解の維持と、低レベルで細かなセンサモータースキルの学習との間に深刻な緊張関係を生み出し、モデルのオープンワールド能力の「破滅的忘却」を引き起こしがちである。この課題を解決するため、我々は汎用的な意味理解を保持する一般家VLMと、具象化された固有受容に特化した専門家VLMを連携させる新規アーキテクチャTwinBrainVLAを提案する。TwinBrainVLAは、強固な汎用的視覚推論能力を保持する凍結された「左脳」と、具象化知覚に特化した学習可能な「右脳」を、新規の非対称型Mixture-of-Transformers(AsyMoT)機構により協調させる。この設計により、右脳は凍結された左脳から意味的知識を動的に問い合わせ、それを固有受容状態と融合させ、Flow-Matching Action Expertが正確な連続制御を生成するための豊富な条件付けを提供する。SimplerEnvおよびRoboCasaベンチマークにおける大規模な実験により、TwinBrainVLAが事前学習済みVLMの包括的視覚理解能力を明示的に保持しつつ、最先端のベースラインを上回る優れた把持性能を達成することを実証した。これは、高レベルの意味理解と低レベルの物理的器用さを同時に実現する汎用ロボット構築に向けた有望な方向性を示すものである。
English
Standard Vision-Language-Action (VLA) models typically fine-tune a monolithic Vision-Language Model (VLM) backbone explicitly for robotic control. However, this approach creates a critical tension between maintaining high-level general semantic understanding and learning low-level, fine-grained sensorimotor skills, often leading to "catastrophic forgetting" of the model's open-world capabilities. To resolve this conflict, we introduce TwinBrainVLA, a novel architecture that coordinates a generalist VLM retaining universal semantic understanding and a specialist VLM dedicated to embodied proprioception for joint robotic control. TwinBrainVLA synergizes a frozen "Left Brain", which retains robust general visual reasoning, with a trainable "Right Brain", specialized for embodied perception, via a novel Asymmetric Mixture-of-Transformers (AsyMoT) mechanism. This design allows the Right Brain to dynamically query semantic knowledge from the frozen Left Brain and fuse it with proprioceptive states, providing rich conditioning for a Flow-Matching Action Expert to generate precise continuous controls. Extensive experiments on SimplerEnv and RoboCasa benchmarks demonstrate that TwinBrainVLA achieves superior manipulation performance compared to state-of-the-art baselines while explicitly preserving the comprehensive visual understanding capabilities of the pre-trained VLM, offering a promising direction for building general-purpose robots that simultaneously achieve high-level semantic understanding and low-level physical dexterity.
PDF521January 27, 2026