DualVLA : Construction d'un agent incarné généralisable via le découplage partiel du raisonnement et de l'action
DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action
November 27, 2025
papers.authors: Zhen Fang, Zhuoyang Liu, Jiaming Liu, Hao Chen, Yu Zeng, Shiting Huang, Zehui Chen, Lin Chen, Shanghang Zhang, Feng Zhao
cs.AI
papers.abstract
Pour construire un modèle Vision-Langage-Action (VLA) généralisable doté de fortes capacités de raisonnement, une stratégie courante consiste à d'abord entraîner un VLA spécialiste sur des démonstrations robotiques pour lui faire acquérir des compétences de manipulation fiables, puis à incorporer des données robotiques annotées mixtes ainsi que des données multimodales pour restaurer des capacités de raisonnement plus larges. Cependant, nous observons que le VLA raisonnant qui en résulte souffre souvent d'une dégradation des performances en matière d'action par rapport au modèle spécialiste avant le réglage fin, un phénomène que nous qualifions de dégénérescence de l'action. Pour résoudre ce problème, nous proposons DualVLA, qui améliore les performances d'action grâce à un post-entraînement soigneusement conçu tout en préservant la capacité de raisonnement. Nous introduisons d'abord une méthode d'élagage des données à double couche qui supprime le raisonnement incarné redondant, l'empêchant d'influencer négativement l'apprentissage de l'action. Pour renforcer davantage la génération d'actions, nous concevons une stratégie de distillation adaptative à double enseignant qui attribue différents signaux de supervision à différents domaines de données tout en maintenant la capacité de raisonnement. Pour combler le déficit d'évaluation des VLA généralistes, nous proposons également le VLA Score, qui découple la capacité du VLA en dimensions de raisonnement, d'intention, d'action et d'alignement pour une évaluation plus fine. Les expériences montrent que DualVLA atteint un taux de réussite moyen de 61,0 dans SimplerEnv et un score moyen de 65,4 sur huit benchmarks multimodaux compétitifs, démontrant un équilibre plus fort entre l'exécution d'actions précises et la compréhension multimodale. Site web du projet : https://costaliya.github.io/DualVLA/.
English
To build a generalizable Vision-Language-Action (VLA) model with strong reasoning ability, a common strategy is to first train a specialist VLA on robot demonstrations to acquire reliable manipulation skills, and then incorporate mixed annotated robot data together with multimodal data to restore broader reasoning capabilities. However, we observe that the resulting reasoning VLA often suffers from degraded action performance compared to the specialist model before fine-tuning, a phenomenon we refer to as action degeneration. To address this issue, we propose DualVLA, which enhances action performance through carefully designed post-training while still preserving reasoning capability. We first introduce a dual-layer data pruning method that removes redundant embodied reasoning, preventing it from adversely influencing action learning. To further strengthen action generation, we design a dual-teacher adaptive distillation strategy that assigns different supervision signals to different data domains while maintaining reasoning ability. To fill the evaluation gap for generalist VLAs, we also propose VLA Score, which decouples VLA capability into reasoning, intention, action, and alignment dimensions for a more fine-grained assessment. Experiments show that DualVLA achieves an average success rate of 61.0 in SimplerEnv and an average score of 65.4 across eight competitive multimodal benchmarks, demonstrating a stronger balance between precise action execution and multimodal understanding. Project Website: https://costaliya.github.io/DualVLA/.