전문성이 독점할 필요는 없다: 비전-언어-행동 학습을 위한 행동 전문화된 전문가 혼합 모델
Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning
October 16, 2025
저자: Weijie Shen, Yitian Liu, Yuhao Wu, Zhixuan Liang, Sijia Gu, Dehui Wang, Tian Nian, Lei Xu, Yusen Qin, Jiangmiao Pang, Xinping Guan, Xiaokang Yang, Yao Mu
cs.AI
초록
비전-언어-행동(Vision-Language-Action, VLA) 모델은 빠르게 발전하고 있으며 로봇 조작 작업에서 유망한 능력을 보여주고 있다. 그러나 VLA 모델의 규모 확장에는 몇 가지 중요한 과제가 존재한다: (1) 새로운 VLA 모델을 처음부터 학습시키기 위해서는 상당한 계산 자원과 방대한 데이터셋이 필요하다. 현재 로봇 데이터가 부족한 상황에서, 규모 확장 과정에서 사전 학습된 VLA 모델의 가중치를 완전히 활용하는 것이 특히 중요하다. (2) 실시간 제어를 위해서는 모델의 용량과 계산 효율성을 신중하게 균형 잡아야 한다. 이러한 과제를 해결하기 위해, 우리는 사전 학습된 밀집 VLA 모델의 가중치를 상속하고, 피드포워드 레이어를 희소 활성화된 MoE(Mixture-of-Experts) 레이어로 대체하여 행동 전문가를 확장하는 AdaMoE라는 MoE 아키텍처를 제안한다. AdaMoE는 기존의 라우터와 함께 독립적인 스케일 어댑터를 통해 전문가 선택과 전문가 가중치를 분리하는 디커플링 기법을 사용한다. 이를 통해 작업 관련성을 기반으로 전문가를 선택하면서도 독립적으로 조절된 가중치로 기여할 수 있게 하여, 승자 독식 방식이 아닌 협력적인 전문가 활용을 가능하게 한다. 우리의 접근 방식은 전문성이 독점될 필요가 없음을 보여준다. 대신, 협력적인 전문가 활용을 통해 계산 효율성을 유지하면서도 우수한 성능을 달성할 수 있다. AdaMoE는 주요 벤치마크에서 기준 모델을 지속적으로 능가하며, LIBERO에서 1.8%, RoboTwin에서 9.3%의 성능 향상을 보여준다. 무엇보다도, 실제 실험에서 21.5%의 상당한 개선은 로봇 조작 작업에서의 실질적인 효과를 입증한다.
English
Vision-Language-Action (VLA) models are experiencing rapid development and
demonstrating promising capabilities in robotic manipulation tasks. However,
scaling up VLA models presents several critical challenges: (1) Training new
VLA models from scratch demands substantial computational resources and
extensive datasets. Given the current scarcity of robot data, it becomes
particularly valuable to fully leverage well-pretrained VLA model weights
during the scaling process. (2) Real-time control requires carefully balancing
model capacity with computational efficiency. To address these challenges, We
propose AdaMoE, a Mixture-of-Experts (MoE) architecture that inherits
pretrained weights from dense VLA models, and scales up the action expert by
substituting the feedforward layers into sparsely activated MoE layers. AdaMoE
employs a decoupling technique that decouples expert selection from expert
weighting through an independent scale adapter working alongside the
traditional router. This enables experts to be selected based on task relevance
while contributing with independently controlled weights, allowing
collaborative expert utilization rather than winner-takes-all dynamics. Our
approach demonstrates that expertise need not monopolize. Instead, through
collaborative expert utilization, we can achieve superior performance while
maintaining computational efficiency. AdaMoE consistently outperforms the
baseline model across key benchmarks, delivering performance gains of 1.8% on
LIBERO and 9.3% on RoboTwin. Most importantly, a substantial 21.5% improvement
in real-world experiments validates its practical effectiveness for robotic
manipulation tasks.