DualVLA: Construção de um Agente Corporificado Generalizável via Desacoplamento Parcial do Raciocínio e da Ação
DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action
November 27, 2025
Autores: Zhen Fang, Zhuoyang Liu, Jiaming Liu, Hao Chen, Yu Zeng, Shiting Huang, Zehui Chen, Lin Chen, Shanghang Zhang, Feng Zhao
cs.AI
Resumo
Para construir um modelo Vision-Language-Action (VLA) generalizável com forte capacidade de raciocínio, uma estratégia comum é primeiro treinar um VLA especialista em demonstrações robóticas para adquirir habilidades de manipulação confiáveis e, em seguida, incorporar dados robóticos anotados mistos juntamente com dados multimodais para restaurar capacidades de raciocínio mais amplas. No entanto, observamos que o VLA de raciocínio resultante frequentemente sofre de degradação no desempenho de ação em comparação com o modelo especialista antes do ajuste fino, um fenômeno que denominamos degeneração da ação. Para resolver este problema, propomos o DualVLA, que melhora o desempenho da ação através de um pós-treinamento cuidadosamente projetado, preservando ainda a capacidade de raciocínio. Primeiro, introduzimos um método de poda de dados de dupla camada que remove o raciocínio incorporado redundante, impedindo que ele influencie negativamente a aprendizagem da ação. Para fortalecer ainda mais a geração de ações, projetamos uma estratégia de destilação adaptativa de duplo professor que atribui sinais de supervisão diferentes a diferentes domínios de dados, mantendo a capacidade de raciocínio. Para preencher a lacuna de avaliação para VLAs generalistas, também propomos o VLA Score, que desacopla a capacidade do VLA nas dimensões de raciocínio, intenção, ação e alinhamento para uma avaliação mais refinada. Os experimentos mostram que o DualVLA alcança uma taxa de sucesso média de 61,0 no SimplerEnv e uma pontuação média de 65,4 em oito benchmarks multimodais competitivos, demonstrando um equilíbrio mais forte entre a execução precisa de ações e a compreensão multimodal. Site do Projeto: https://costaliya.github.io/DualVLA/.
English
To build a generalizable Vision-Language-Action (VLA) model with strong reasoning ability, a common strategy is to first train a specialist VLA on robot demonstrations to acquire reliable manipulation skills, and then incorporate mixed annotated robot data together with multimodal data to restore broader reasoning capabilities. However, we observe that the resulting reasoning VLA often suffers from degraded action performance compared to the specialist model before fine-tuning, a phenomenon we refer to as action degeneration. To address this issue, we propose DualVLA, which enhances action performance through carefully designed post-training while still preserving reasoning capability. We first introduce a dual-layer data pruning method that removes redundant embodied reasoning, preventing it from adversely influencing action learning. To further strengthen action generation, we design a dual-teacher adaptive distillation strategy that assigns different supervision signals to different data domains while maintaining reasoning ability. To fill the evaluation gap for generalist VLAs, we also propose VLA Score, which decouples VLA capability into reasoning, intention, action, and alignment dimensions for a more fine-grained assessment. Experiments show that DualVLA achieves an average success rate of 61.0 in SimplerEnv and an average score of 65.4 across eight competitive multimodal benchmarks, demonstrating a stronger balance between precise action execution and multimodal understanding. Project Website: https://costaliya.github.io/DualVLA/.