DualVLA: 추론과 행동의 부분적 분리를 통한 일반화 가능한 구현 에이전트 구축
DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action
November 27, 2025
저자: Zhen Fang, Zhuoyang Liu, Jiaming Liu, Hao Chen, Yu Zeng, Shiting Huang, Zehui Chen, Lin Chen, Shanghang Zhang, Feng Zhao
cs.AI
초록
일반화 가능한 시각-언어-행동(Vision-Language-Action, VLA) 모델을 강력한 추론 능력으로 구축하기 위한 일반적인 전략은, 먼저 로봇 데모 데이터로 전문 VLA 모델을 학습시켜 신뢰할 수 있는 조작 기술을 습득한 후, 혼합 주석 로봇 데이터와 다중 모달 데이터를 함께 활용하여 광범위한 추론 능력을 회복시키는 것이다. 그러나 우리는 미세 조정(fine-tuning) 이전의 전문 모델 대비 결과적인 추론 VLA의 행동 성능이 저하되는, 즉 '행동 성능 저하(action degeneration)' 현상이 자주 발생함을 관찰했다. 이 문제를 해결하기 위해 우리는 신중하게 설계된 후속 학습(post-training)을 통해 행동 성능을 향상시키면서도 추론 능력을 보존하는 DualVLA를 제안한다. 우리는 먼저 중복된 구현적 추론(embodied reasoning)을 제거하여 행동 학습에 부정적인 영향을 미치는 것을 방지하는 이중 계층 데이터 정제(dual-layer data pruning) 방법을 도입한다. 행동 생성 능력을 더욱 강화하기 위해, 서로 다른 데이터 영역에 다른 감독 신호를 할당하면서 추론 능력을 유지하는 이중 교사 적응형 지식 증류(dual-teacher adaptive distillation) 전략을 설계한다. 또한 일반형 VLA에 대한 평가 격차를 해소하기 위해, VLA 능력을 추론, 의도, 행동, 정렬 차원으로 분리하여 더 세분화된 평가를 가능하게 하는 VLA Score를 제안한다. 실험 결과, DualVLA는 SimplerEnv에서 평균 61.0%의 성공률을 달성했으며 8개의 경쟁력 있는 다중 모달 벤치마크에서 평균 65.4점의 점수를 기록하여 정확한 행동 실행과 다중 모달 이해 사이의 더욱 강력한 균형을 입증했다. 프로젝트 웹사이트: https://costaliya.github.io/DualVLA/.
English
To build a generalizable Vision-Language-Action (VLA) model with strong reasoning ability, a common strategy is to first train a specialist VLA on robot demonstrations to acquire reliable manipulation skills, and then incorporate mixed annotated robot data together with multimodal data to restore broader reasoning capabilities. However, we observe that the resulting reasoning VLA often suffers from degraded action performance compared to the specialist model before fine-tuning, a phenomenon we refer to as action degeneration. To address this issue, we propose DualVLA, which enhances action performance through carefully designed post-training while still preserving reasoning capability. We first introduce a dual-layer data pruning method that removes redundant embodied reasoning, preventing it from adversely influencing action learning. To further strengthen action generation, we design a dual-teacher adaptive distillation strategy that assigns different supervision signals to different data domains while maintaining reasoning ability. To fill the evaluation gap for generalist VLAs, we also propose VLA Score, which decouples VLA capability into reasoning, intention, action, and alignment dimensions for a more fine-grained assessment. Experiments show that DualVLA achieves an average success rate of 61.0 in SimplerEnv and an average score of 65.4 across eight competitive multimodal benchmarks, demonstrating a stronger balance between precise action execution and multimodal understanding. Project Website: https://costaliya.github.io/DualVLA/.