TwinBrainVLA: Liberando el Potencial de los VLM Generalistas para Tareas de Robótica Embebida mediante una Mezcla Asimétrica de Transformadores

Resumen

Los modelos estándar Visión-Lenguaje-Acción (VLA) normalmente ajustan un modelo monolítico de base (VLM) explícitamente para el control robótico. Sin embargo, este enfoque crea una tensión crítica entre mantener una comprensión semántica general de alto nivel y aprender habilidades sensorimotoras de bajo nivel y grano fino, lo que a menudo conduce a un "olvido catastrófico" de las capacidades de mundo abierto del modelo. Para resolver este conflicto, presentamos TwinBrainVLA, una arquitectura novedosa que coordina un VLM generalista que conserva la comprensión semántica universal y un VLM especialista dedicado a la propiocepción corporeizada para el control robótico conjunto. TwinBrainVLA sinergiza un "Cerebro Izquierdo" congelado, que conserva un razonamiento visual general robusto, con un "Cerebro Derecho" entrenable, especializado en percepción corporeizada, mediante un nuevo mecanismo de Mezcla Asimétrica de Transformadores (AsyMoT). Este diseño permite al Cerebro Derecho consultar dinámicamente conocimiento semántico del Cerebro Izquierdo congelado y fusionarlo con estados propioceptivos, proporcionando un acondicionamiento enriquecido para que un Experto en Acciones por Correspondencia de Flujos genere controles continuos precisos. Experimentos exhaustivos en los benchmarks SimplerEnv y RoboCasa demuestran que TwinBrainVLA logra un rendimiento de manipulación superior en comparación con los baselines de última generación, al mismo tiempo que preserva explícitamente las capacidades de comprensión visual integral del VLM preentrenado, ofreciendo una dirección prometedora para construir robots de propósito general que logren simultáneamente una comprensión semántica de alto nivel y una destreza física de bajo nivel.

English

Standard Vision-Language-Action (VLA) models typically fine-tune a monolithic Vision-Language Model (VLM) backbone explicitly for robotic control. However, this approach creates a critical tension between maintaining high-level general semantic understanding and learning low-level, fine-grained sensorimotor skills, often leading to "catastrophic forgetting" of the model's open-world capabilities. To resolve this conflict, we introduce TwinBrainVLA, a novel architecture that coordinates a generalist VLM retaining universal semantic understanding and a specialist VLM dedicated to embodied proprioception for joint robotic control. TwinBrainVLA synergizes a frozen "Left Brain", which retains robust general visual reasoning, with a trainable "Right Brain", specialized for embodied perception, via a novel Asymmetric Mixture-of-Transformers (AsyMoT) mechanism. This design allows the Right Brain to dynamically query semantic knowledge from the frozen Left Brain and fuse it with proprioceptive states, providing rich conditioning for a Flow-Matching Action Expert to generate precise continuous controls. Extensive experiments on SimplerEnv and RoboCasa benchmarks demonstrate that TwinBrainVLA achieves superior manipulation performance compared to state-of-the-art baselines while explicitly preserving the comprehensive visual understanding capabilities of the pre-trained VLM, offering a promising direction for building general-purpose robots that simultaneously achieve high-level semantic understanding and low-level physical dexterity.