L'expertise n'a pas besoin de monopoliser : Mélange d'experts spécialisés dans l'action pour l'apprentissage vision-langage-action.
Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning
October 16, 2025
papers.authors: Weijie Shen, Yitian Liu, Yuhao Wu, Zhixuan Liang, Sijia Gu, Dehui Wang, Tian Nian, Lei Xu, Yusen Qin, Jiangmiao Pang, Xinping Guan, Xiaokang Yang, Yao Mu
cs.AI
papers.abstract
Les modèles Vision-Langage-Action (VLA) connaissent un développement rapide et démontrent des capacités prometteuses dans les tâches de manipulation robotique. Cependant, la mise à l'échelle des modèles VLA présente plusieurs défis critiques : (1) L'entraînement de nouveaux modèles VLA à partir de zéro nécessite des ressources computationnelles substantielles et des jeux de données étendus. Compte tenu de la rareté actuelle des données robotiques, il devient particulièrement précieux de tirer pleinement parti des poids de modèles VLA pré-entraînés lors du processus de mise à l'échelle. (2) Le contrôle en temps réel nécessite un équilibre minutieux entre la capacité du modèle et l'efficacité computationnelle. Pour relever ces défis, nous proposons AdaMoE, une architecture de type Mixture-of-Experts (MoE) qui hérite des poids pré-entraînés de modèles VLA denses et met à l'échelle l'expert en action en remplaçant les couches feedforward par des couches MoE activées de manière parcimonieuse. AdaMoE utilise une technique de découplage qui sépare la sélection des experts de la pondération des experts grâce à un adapteur d'échelle indépendant fonctionnant conjointement avec le routeur traditionnel. Cela permet aux experts d'être sélectionnés en fonction de la pertinence de la tâche tout en contribuant avec des poids contrôlés indépendamment, favorisant une utilisation collaborative des experts plutôt qu'une dynamique de type "le gagnant prend tout". Notre approche démontre que l'expertise n'a pas besoin de monopoliser. Au contraire, grâce à une utilisation collaborative des experts, nous pouvons atteindre des performances supérieures tout en maintenant l'efficacité computationnelle. AdaMoE surpasse systématiquement le modèle de référence sur plusieurs benchmarks clés, avec des gains de performance de 1,8 % sur LIBERO et de 9,3 % sur RoboTwin. Plus important encore, une amélioration substantielle de 21,5 % dans les expériences en conditions réelles valide son efficacité pratique pour les tâches de manipulation robotique.
English
Vision-Language-Action (VLA) models are experiencing rapid development and
demonstrating promising capabilities in robotic manipulation tasks. However,
scaling up VLA models presents several critical challenges: (1) Training new
VLA models from scratch demands substantial computational resources and
extensive datasets. Given the current scarcity of robot data, it becomes
particularly valuable to fully leverage well-pretrained VLA model weights
during the scaling process. (2) Real-time control requires carefully balancing
model capacity with computational efficiency. To address these challenges, We
propose AdaMoE, a Mixture-of-Experts (MoE) architecture that inherits
pretrained weights from dense VLA models, and scales up the action expert by
substituting the feedforward layers into sparsely activated MoE layers. AdaMoE
employs a decoupling technique that decouples expert selection from expert
weighting through an independent scale adapter working alongside the
traditional router. This enables experts to be selected based on task relevance
while contributing with independently controlled weights, allowing
collaborative expert utilization rather than winner-takes-all dynamics. Our
approach demonstrates that expertise need not monopolize. Instead, through
collaborative expert utilization, we can achieve superior performance while
maintaining computational efficiency. AdaMoE consistently outperforms the
baseline model across key benchmarks, delivering performance gains of 1.8% on
LIBERO and 9.3% on RoboTwin. Most importantly, a substantial 21.5% improvement
in real-world experiments validates its practical effectiveness for robotic
manipulation tasks.