ChatPaper.aiChatPaper

DualVLA: Opbouw van een generaliseerbare belichaamde agent via gedeeltelijke ontkoppeling van redeneren en handelen

DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action

November 27, 2025
Auteurs: Zhen Fang, Zhuoyang Liu, Jiaming Liu, Hao Chen, Yu Zeng, Shiting Huang, Zehui Chen, Lin Chen, Shanghang Zhang, Feng Zhao
cs.AI

Samenvatting

Om een generaliseerbaar Vision-Language-Action (VLA)-model met een sterke redeneervaardigheid te bouwen, is een gebruikelijke strategie om eerst een gespecialiseerde VLA te trainen op robotdemonstraties om betrouwbare manipulatievaardigheden te verwerven, en vervolgens gemengde geannoteerde robotdata samen met multimodale data te integreren om bredere redeneercapaciteiten te herstellen. Wij observeren echter dat de resulterende redenerende VLA vaak te lijden heeft onder een verminderde actieprestatie in vergelijking met het gespecialiseerde model vóór fine-tuning, een fenomeen dat wij actiedegeneratie noemen. Om dit probleem aan te pakken, stellen wij DualVLA voor, dat de actieprestatie verbetert door middel van een zorgvuldig ontworpen post-training, terwijl de redeneercapaciteit behouden blijft. Wij introduceren eerst een dual-layer data pruning-methode die redundante embodied reasoning verwijdert, om te voorkomen dat deze een nadelige invloed heeft op het actieleren. Om de actiegeneratie verder te versterken, ontwerpen wij een dual-teacher adaptieve distillatiestrategie die verschillende supervisiesignalen toekent aan verschillende datadomeinen, terwijl de redeneervaardigheid behouden blijft. Om de evaluatiekloof voor generalistische VLA's te dichten, stellen wij ook VLA Score voor, dat de VLA-capaciteit ontkoppelt in redenering, intentie, actie en aligneringdimensies voor een fijnmazigere beoordeling. Experimenten tonen aan dat DualVLA een gemiddeld slagingspercentage van 61,0 behaalt in SimplerEnv en een gemiddelde score van 65,4 over acht competitieve multimodale benchmarks, wat een sterkere balans aantoont tussen precieze actie-uitvoering en multimodaal begrip. Projectwebsite: https://costaliya.github.io/DualVLA/.
English
To build a generalizable Vision-Language-Action (VLA) model with strong reasoning ability, a common strategy is to first train a specialist VLA on robot demonstrations to acquire reliable manipulation skills, and then incorporate mixed annotated robot data together with multimodal data to restore broader reasoning capabilities. However, we observe that the resulting reasoning VLA often suffers from degraded action performance compared to the specialist model before fine-tuning, a phenomenon we refer to as action degeneration. To address this issue, we propose DualVLA, which enhances action performance through carefully designed post-training while still preserving reasoning capability. We first introduce a dual-layer data pruning method that removes redundant embodied reasoning, preventing it from adversely influencing action learning. To further strengthen action generation, we design a dual-teacher adaptive distillation strategy that assigns different supervision signals to different data domains while maintaining reasoning ability. To fill the evaluation gap for generalist VLAs, we also propose VLA Score, which decouples VLA capability into reasoning, intention, action, and alignment dimensions for a more fine-grained assessment. Experiments show that DualVLA achieves an average success rate of 61.0 in SimplerEnv and an average score of 65.4 across eight competitive multimodal benchmarks, demonstrating a stronger balance between precise action execution and multimodal understanding. Project Website: https://costaliya.github.io/DualVLA/.
PDF161December 2, 2025