TwinBrainVLA: Entfesselung des Potenzials generalistischer VLMs für verkörperte Aufgaben durch asymmetrische Mixture-of-Transformers

Zusammenfassung

Standard Vision-Language-Action (VLA)-Modelle feintunen typischerweise explizit für die Roboterkontrolle ein monolithisches Vision-Language-Model (VLM)-Backbone. Dieser Ansatz erzeugt jedoch einen kritischen Zielkonflikt zwischen der Beibehaltung eines allgemeinen semantischen Hochverständnisses und dem Erlernen niedrigschwelliger, feingranularer sensomotorischer Fähigkeiten, was oft zu einem "katastrophalen Vergessen" der offenen Welt-Fähigkeiten des Modells führt. Um diesen Konflikt zu lösen, stellen wir TwinBrainVLA vor, eine neuartige Architektur, die einen generalistischen VLM mit universellem Semantikverständnis und einen spezialisierten VLM für verkörperte Propriozeption zur gemeinsamen Roboterkontrolle koordiniert. TwinBrainVLA kombiniert synergistisch ein eingefrorenes "linkes Gehirn", das ein robustes allgemeines visuelles Reasoning beibehält, mit einem trainierbaren "rechten Gehirn", das auf verkörperte Wahrnehmung spezialisiert ist, über einen neuartigen Asymmetric Mixture-of-Transformers (AsyMoT)-Mechanismus. Dieses Design ermöglicht es dem rechten Gehirn, semantisches Wissen dynamisch vom eingefrorenen linken Gehirn abzufragen und es mit propriozeptiven Zuständen zu fusionieren, wodurch eine umfangreiche Konditionierung für einen Flow-Matching-Action-Expert bereitgestellt wird, um präzise kontinuierliche Steuerungen zu generieren. Umfangreiche Experimente auf den SimplerEnv- und RoboCasa-Benchmarks zeigen, dass TwinBrainVLA im Vergleich zu state-of-the-art Baselines eine überlegene Manipulationsleistung erzielt und gleichzeitig explizit die umfassenden visuellen Verständnisfähigkeiten des vortrainierten VLM erhält. Dies bietet eine vielversprechende Richtung für den Bau universell einsetzbarer Roboter, die gleichzeitig ein hohes semantisches Verständnis und eine niedrigschwellige physische Geschicklichkeit erreichen.

English

Standard Vision-Language-Action (VLA) models typically fine-tune a monolithic Vision-Language Model (VLM) backbone explicitly for robotic control. However, this approach creates a critical tension between maintaining high-level general semantic understanding and learning low-level, fine-grained sensorimotor skills, often leading to "catastrophic forgetting" of the model's open-world capabilities. To resolve this conflict, we introduce TwinBrainVLA, a novel architecture that coordinates a generalist VLM retaining universal semantic understanding and a specialist VLM dedicated to embodied proprioception for joint robotic control. TwinBrainVLA synergizes a frozen "Left Brain", which retains robust general visual reasoning, with a trainable "Right Brain", specialized for embodied perception, via a novel Asymmetric Mixture-of-Transformers (AsyMoT) mechanism. This design allows the Right Brain to dynamically query semantic knowledge from the frozen Left Brain and fuse it with proprioceptive states, providing rich conditioning for a Flow-Matching Action Expert to generate precise continuous controls. Extensive experiments on SimplerEnv and RoboCasa benchmarks demonstrate that TwinBrainVLA achieves superior manipulation performance compared to state-of-the-art baselines while explicitly preserving the comprehensive visual understanding capabilities of the pre-trained VLM, offering a promising direction for building general-purpose robots that simultaneously achieve high-level semantic understanding and low-level physical dexterity.

TwinBrainVLA: Entfesselung des Potenzials generalistischer VLMs für verkörperte Aufgaben durch asymmetrische Mixture-of-Transformers

TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

Zusammenfassung

Support