Expertise hoeft niet te monopoliseren: Actie-gespecialiseerd Mengsel van Experts voor Visie-Taal-Actie Leren
Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning
October 16, 2025
Auteurs: Weijie Shen, Yitian Liu, Yuhao Wu, Zhixuan Liang, Sijia Gu, Dehui Wang, Tian Nian, Lei Xu, Yusen Qin, Jiangmiao Pang, Xinping Guan, Xiaokang Yang, Yao Mu
cs.AI
Samenvatting
Vision-Language-Action (VLA)-modellen ondergaan een snelle ontwikkeling en tonen veelbelovende capaciteiten in robotmanipulatietaken. Het opschalen van VLA-modellen brengt echter verschillende kritieke uitdagingen met zich mee: (1) Het trainen van nieuwe VLA-modellen vanaf nul vereist aanzienlijke rekenkracht en uitgebreide datasets. Gezien de huidige schaarste aan robotdata wordt het bijzonder waardevol om goed voorgetrainde VLA-modelgewichten volledig te benutten tijdens het opschaalproces. (2) Real-time controle vereist een zorgvuldige balans tussen modelcapaciteit en rekenkundige efficiëntie. Om deze uitdagingen aan te pakken, stellen we AdaMoE voor, een Mixture-of-Experts (MoE)-architectuur die voorgetrainde gewichten erft van dichte VLA-modellen en de actie-expert opschaalt door de feedforward-lagen te vervangen door spaarzaam geactiveerde MoE-lagen. AdaMoE maakt gebruik van een ontkoppeltechniek die expertselectie ontkoppelt van expertweging via een onafhankelijke schaaladapter die naast de traditionele router werkt. Hierdoor kunnen experts worden geselecteerd op basis van taakrelevantie terwijl ze bijdragen met onafhankelijk gecontroleerde gewichten, wat samenwerking tussen experts mogelijk maakt in plaats van een winner-takes-all-dynamiek. Onze aanpak toont aan dat expertise niet hoeft te monopoliseren. In plaats daarvan kunnen we door samenwerking tussen experts superieure prestaties bereiken terwijl we de rekenkundige efficiëntie behouden. AdaMoE overtreft consequent het basislijnmodel op belangrijke benchmarks, met prestatieverbeteringen van 1,8% op LIBERO en 9,3% op RoboTwin. Het belangrijkste is dat een aanzienlijke verbetering van 21,5% in real-world experimenten de praktische effectiviteit voor robotmanipulatietaken bevestigt.
English
Vision-Language-Action (VLA) models are experiencing rapid development and
demonstrating promising capabilities in robotic manipulation tasks. However,
scaling up VLA models presents several critical challenges: (1) Training new
VLA models from scratch demands substantial computational resources and
extensive datasets. Given the current scarcity of robot data, it becomes
particularly valuable to fully leverage well-pretrained VLA model weights
during the scaling process. (2) Real-time control requires carefully balancing
model capacity with computational efficiency. To address these challenges, We
propose AdaMoE, a Mixture-of-Experts (MoE) architecture that inherits
pretrained weights from dense VLA models, and scales up the action expert by
substituting the feedforward layers into sparsely activated MoE layers. AdaMoE
employs a decoupling technique that decouples expert selection from expert
weighting through an independent scale adapter working alongside the
traditional router. This enables experts to be selected based on task relevance
while contributing with independently controlled weights, allowing
collaborative expert utilization rather than winner-takes-all dynamics. Our
approach demonstrates that expertise need not monopolize. Instead, through
collaborative expert utilization, we can achieve superior performance while
maintaining computational efficiency. AdaMoE consistently outperforms the
baseline model across key benchmarks, delivering performance gains of 1.8% on
LIBERO and 9.3% on RoboTwin. Most importantly, a substantial 21.5% improvement
in real-world experiments validates its practical effectiveness for robotic
manipulation tasks.