ChatPaper.aiChatPaper

DualVLA: Costruzione di un Agente Incarnato Generalizzabile mediante Disaccoppiamento Parziale del Ragionamento e dell'Azione

DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action

November 27, 2025
Autori: Zhen Fang, Zhuoyang Liu, Jiaming Liu, Hao Chen, Yu Zeng, Shiting Huang, Zehui Chen, Lin Chen, Shanghang Zhang, Feng Zhao
cs.AI

Abstract

Per costruire un modello Vision-Language-Action (VLA) generalizzabile con forti capacità di ragionamento, una strategia comune consiste nell'addestrare prima uno specialista VLA su dimostrazioni robotiche per acquisire abilità di manipolazione affidabili, per poi incorporare dati robotici annotati misti insieme a dati multimodali per ripristinare capacità di ragionamento più ampie. Tuttavia, osserviamo che il VLA per il ragionamento risultante spesso soffre di una performance d'azione degradata rispetto al modello specialista prima del fine-tuning, un fenomeno che definiamo degenerazione dell'azione. Per affrontare questo problema, proponiamo DualVLA, che migliora le prestazioni d'azione attraverso un post-addestramento accuratamente progettato, preservando al contempo la capacità di ragionamento. Introduciamo innanzitutto un metodo di pruning dei dati a doppio strato che rimuove il ragionamento embodied ridondante, impedendogli di influenzare negativamente l'apprendimento dell'azione. Per rafforzare ulteriormente la generazione dell'azione, progettiamo una strategia di distillazione adattiva a doppio insegnante che assegna diversi segnali di supervisione a diversi domini di dati mantenendo la capacità di ragionamento. Per colmare la lacuna valutativa per i VLA generalisti, proponiamo anche VLA Score, che scompone la capacità VLA nelle dimensioni di ragionamento, intenzione, azione e allineamento per una valutazione più granulare. Gli esperimenti mostrano che DualVLA raggiunge un tasso di successo medio del 61.0 in SimplerEnv e un punteggio medio di 65.4 su otto benchmark multimodali competitivi, dimostrando un equilibrio più forte tra esecuzione precisa dell'azione e comprensione multimodale. Sito del progetto: https://costaliya.github.io/DualVLA/.
English
To build a generalizable Vision-Language-Action (VLA) model with strong reasoning ability, a common strategy is to first train a specialist VLA on robot demonstrations to acquire reliable manipulation skills, and then incorporate mixed annotated robot data together with multimodal data to restore broader reasoning capabilities. However, we observe that the resulting reasoning VLA often suffers from degraded action performance compared to the specialist model before fine-tuning, a phenomenon we refer to as action degeneration. To address this issue, we propose DualVLA, which enhances action performance through carefully designed post-training while still preserving reasoning capability. We first introduce a dual-layer data pruning method that removes redundant embodied reasoning, preventing it from adversely influencing action learning. To further strengthen action generation, we design a dual-teacher adaptive distillation strategy that assigns different supervision signals to different data domains while maintaining reasoning ability. To fill the evaluation gap for generalist VLAs, we also propose VLA Score, which decouples VLA capability into reasoning, intention, action, and alignment dimensions for a more fine-grained assessment. Experiments show that DualVLA achieves an average success rate of 61.0 in SimplerEnv and an average score of 65.4 across eight competitive multimodal benchmarks, demonstrating a stronger balance between precise action execution and multimodal understanding. Project Website: https://costaliya.github.io/DualVLA/.
PDF161December 2, 2025