ChatPaper.aiChatPaper

DualVLA:推論と行動の部分的分離による汎化可能な具現化エージェントの構築

DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action

November 27, 2025
著者: Zhen Fang, Zhuoyang Liu, Jiaming Liu, Hao Chen, Yu Zeng, Shiting Huang, Zehui Chen, Lin Chen, Shanghang Zhang, Feng Zhao
cs.AI

要旨

強力な推論能力を備えた一般化可能なVision-Language-Action(VLA)モデルを構築するためには、まずロボット実証データで専門特化型VLAを訓練して確かな操作技能を獲得し、その後、注釈付きロボットデータとマルチモーダルデータを混合して広範な推論能力を回復させるという戦略が一般的です。しかし、この手法で得られた推論型VLAは、ファインチューニング前の専門特化型モデルと比較して行動性能が劣化する現象(我々はこれを行動退化と呼ぶ)がしばしば観察されます。この問題を解決するため、我々はDualVLAを提案します。これは、注意深く設計された事後訓練を通じて行動性能を強化しつつ、推論能力を維持する手法です。まず、冗長な具身推論を除去して行動学習への悪影響を防ぐ二重層データ選別法を導入します。さらに行動生成を強化するため、推論能力を維持しながら異なるデータ領域に異なる監督信号を割り当てるデュアルティーチャー適応蒸留戦略を設計します。また、汎用VLAの評価ギャップを埋めるため、VLAの能力を推論・意図・行動・整合性の次元に分離してより細かい評価を行うVLAスコアを提案します。実験では、DualVLAがSimplerEnvで平均61.0%の成功率を達成し、8つの競合マルチモーダルベンチマークで平均65.4点を獲得し、精密な行動実行とマルチモーダル理解のより強力なバランスを示しました。プロジェクトWebsite: https://costaliya.github.io/DualVLA/。
English
To build a generalizable Vision-Language-Action (VLA) model with strong reasoning ability, a common strategy is to first train a specialist VLA on robot demonstrations to acquire reliable manipulation skills, and then incorporate mixed annotated robot data together with multimodal data to restore broader reasoning capabilities. However, we observe that the resulting reasoning VLA often suffers from degraded action performance compared to the specialist model before fine-tuning, a phenomenon we refer to as action degeneration. To address this issue, we propose DualVLA, which enhances action performance through carefully designed post-training while still preserving reasoning capability. We first introduce a dual-layer data pruning method that removes redundant embodied reasoning, preventing it from adversely influencing action learning. To further strengthen action generation, we design a dual-teacher adaptive distillation strategy that assigns different supervision signals to different data domains while maintaining reasoning ability. To fill the evaluation gap for generalist VLAs, we also propose VLA Score, which decouples VLA capability into reasoning, intention, action, and alignment dimensions for a more fine-grained assessment. Experiments show that DualVLA achieves an average success rate of 61.0 in SimplerEnv and an average score of 65.4 across eight competitive multimodal benchmarks, demonstrating a stronger balance between precise action execution and multimodal understanding. Project Website: https://costaliya.github.io/DualVLA/.
PDF161December 2, 2025