DualVLA: Aufbau eines generalisierbaren verkörperten Agenten durch teilweise Entkopplung von Denken und Handeln
DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action
November 27, 2025
papers.authors: Zhen Fang, Zhuoyang Liu, Jiaming Liu, Hao Chen, Yu Zeng, Shiting Huang, Zehui Chen, Lin Chen, Shanghang Zhang, Feng Zhao
cs.AI
papers.abstract
Um ein generalisierbares Vision-Language-Action (VLA)-Modell mit starker Reasoning-Fähigkeit zu entwickeln, ist eine gängige Strategie, zunächst einen spezialisierten VLA mit Roboterdemonstrationen zu trainieren, um zuverlässige Manipulationsfähigkeiten zu erlernen, und anschließend gemischte annotierte Roboterdaten zusammen mit multimodalen Daten zu integrieren, um breitere Reasoning-Fähigkeiten wiederherzustellen. Wir beobachten jedoch, dass der resultierende Reasoning-VLA im Vergleich zum spezialisierten Modell vor dem Fine-Tuning oft unter einer verschlechterten Aktionsleistung leidet – ein Phänomen, das wir als *Action Degeneration* (Aktionsdegeneration) bezeichnen. Um dieses Problem zu adressieren, schlagen wir DualVLA vor, das die Aktionsleistung durch ein sorgfältig gestaltetes Post-Training verbessert, während gleichzeitig die Reasoning-Fähigkeit erhalten bleibt. Zunächst führen wir eine Dual-Layer-Datenbereinigungsmethode ein, die redundantes Embodied Reasoning entfernt, um zu verhindern, dass dieses das Aktionslernen negativ beeinflusst. Um die Aktionsgenerierung weiter zu stärken, entwerfen wir eine Dual-Teacher-adaptive Destillationsstrategie, die unterschiedliche Überwachungssignale verschiedenen Datendomänen zuweist, während die Reasoning-Fähigkeit erhalten bleibt. Um die Evaluationslücke für generalistische VLA-Modelle zu schließen, schlagen wir außerdem den VLA-Score vor, der die VLA-Fähigkeit in die Dimensionen Reasoning, Intention, Aktion und Alignment entkoppelt, um eine fein granulierte Bewertung zu ermöglichen. Experimente zeigen, dass DualVLA eine durchschnittliche Erfolgsrate von 61,0 in SimplerEnv und eine durchschnittliche Punktzahl von 65,4 über acht wettbewerbsfähige multimodale Benchmarks erreicht, was eine stärkere Balance zwischen präziser Aktionsausführung und multimodalem Verständnis demonstriert. Projekt-Website: https://costaliya.github.io/DualVLA/.
English
To build a generalizable Vision-Language-Action (VLA) model with strong reasoning ability, a common strategy is to first train a specialist VLA on robot demonstrations to acquire reliable manipulation skills, and then incorporate mixed annotated robot data together with multimodal data to restore broader reasoning capabilities. However, we observe that the resulting reasoning VLA often suffers from degraded action performance compared to the specialist model before fine-tuning, a phenomenon we refer to as action degeneration. To address this issue, we propose DualVLA, which enhances action performance through carefully designed post-training while still preserving reasoning capability. We first introduce a dual-layer data pruning method that removes redundant embodied reasoning, preventing it from adversely influencing action learning. To further strengthen action generation, we design a dual-teacher adaptive distillation strategy that assigns different supervision signals to different data domains while maintaining reasoning ability. To fill the evaluation gap for generalist VLAs, we also propose VLA Score, which decouples VLA capability into reasoning, intention, action, and alignment dimensions for a more fine-grained assessment. Experiments show that DualVLA achieves an average success rate of 61.0 in SimplerEnv and an average score of 65.4 across eight competitive multimodal benchmarks, demonstrating a stronger balance between precise action execution and multimodal understanding. Project Website: https://costaliya.github.io/DualVLA/.