TwinBrainVLA: Liberando o Potencial de VLMs Generalistas para Tarefas Corporificadas via Mistura Assimétrica de Transformers

Resumo

Os modelos padrão Visão-Linguagem-Ação (VLA) normalmente ajustam finamente uma estrutura monolítica de Modelo de Visão-Linguagem (VLM) explicitamente para controle robótico. No entanto, essa abordagem cria uma tensão crítica entre manter a compreensão semântica geral de alto nível e aprender habilidades sensorimotoras refinadas de baixo nível, frequentemente levando ao "esquecimento catastrófico" das capacidades de mundo aberto do modelo. Para resolver esse conflito, introduzimos o TwinBrainVLA, uma arquitetura inovadora que coordena um VLM generalista, que retém a compreensão semântica universal, e um VLM especialista dedicado à propriocepção incorporada para controle robótico conjunto. O TwinBrainVLA sinergiza um "Cérebro Esquerdo" congelado, que mantém o raciocínio visual geral robusto, com um "Cérebro Direito" treinável, especializado em percepção incorporada, por meio de um novo mecanismo de Mistura Assimétrica de Transformers (AsyMoT). Esse projeto permite que o Cérebro Direito consulte dinamicamente conhecimento semântico do Cérebro Esquerdo congelado e o funda com estados proprioceptivos, fornecendo condicionamento rico para um Especialista em Ação com Correspondência de Fluxo (Flow-Matching) gerar controles contínuos precisos. Extensos experimentos nos benchmarks SimplerEnv e RoboCasa demonstram que o TwinBrainVLA alcança desempenho de manipulação superior em comparação com as linhas de base state-of-the-art, enquanto preserva explicitamente as capacidades abrangentes de compreensão visual do VLM pré-treinado, oferecendo uma direção promissora para a construção de robôs de propósito geral que alcançam simultaneamente compreensão semântica de alto nível e destreza física de baixo nível.

English

Standard Vision-Language-Action (VLA) models typically fine-tune a monolithic Vision-Language Model (VLM) backbone explicitly for robotic control. However, this approach creates a critical tension between maintaining high-level general semantic understanding and learning low-level, fine-grained sensorimotor skills, often leading to "catastrophic forgetting" of the model's open-world capabilities. To resolve this conflict, we introduce TwinBrainVLA, a novel architecture that coordinates a generalist VLM retaining universal semantic understanding and a specialist VLM dedicated to embodied proprioception for joint robotic control. TwinBrainVLA synergizes a frozen "Left Brain", which retains robust general visual reasoning, with a trainable "Right Brain", specialized for embodied perception, via a novel Asymmetric Mixture-of-Transformers (AsyMoT) mechanism. This design allows the Right Brain to dynamically query semantic knowledge from the frozen Left Brain and fuse it with proprioceptive states, providing rich conditioning for a Flow-Matching Action Expert to generate precise continuous controls. Extensive experiments on SimplerEnv and RoboCasa benchmarks demonstrate that TwinBrainVLA achieves superior manipulation performance compared to state-of-the-art baselines while explicitly preserving the comprehensive visual understanding capabilities of the pre-trained VLM, offering a promising direction for building general-purpose robots that simultaneously achieve high-level semantic understanding and low-level physical dexterity.

TwinBrainVLA: Liberando o Potencial de VLMs Generalistas para Tarefas Corporificadas via Mistura Assimétrica de Transformers

TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

Resumo

Support