L'expertise n'a pas besoin de monopoliser : Mélange d'experts spécialisés dans l'action pour l'apprentissage vision-langage-action.

papers.abstract

Les modèles Vision-Langage-Action (VLA) connaissent un développement rapide et démontrent des capacités prometteuses dans les tâches de manipulation robotique. Cependant, la mise à l'échelle des modèles VLA présente plusieurs défis critiques : (1) L'entraînement de nouveaux modèles VLA à partir de zéro nécessite des ressources computationnelles substantielles et des jeux de données étendus. Compte tenu de la rareté actuelle des données robotiques, il devient particulièrement précieux de tirer pleinement parti des poids de modèles VLA pré-entraînés lors du processus de mise à l'échelle. (2) Le contrôle en temps réel nécessite un équilibre minutieux entre la capacité du modèle et l'efficacité computationnelle. Pour relever ces défis, nous proposons AdaMoE, une architecture de type Mixture-of-Experts (MoE) qui hérite des poids pré-entraînés de modèles VLA denses et met à l'échelle l'expert en action en remplaçant les couches feedforward par des couches MoE activées de manière parcimonieuse. AdaMoE utilise une technique de découplage qui sépare la sélection des experts de la pondération des experts grâce à un adapteur d'échelle indépendant fonctionnant conjointement avec le routeur traditionnel. Cela permet aux experts d'être sélectionnés en fonction de la pertinence de la tâche tout en contribuant avec des poids contrôlés indépendamment, favorisant une utilisation collaborative des experts plutôt qu'une dynamique de type "le gagnant prend tout". Notre approche démontre que l'expertise n'a pas besoin de monopoliser. Au contraire, grâce à une utilisation collaborative des experts, nous pouvons atteindre des performances supérieures tout en maintenant l'efficacité computationnelle. AdaMoE surpasse systématiquement le modèle de référence sur plusieurs benchmarks clés, avec des gains de performance de 1,8 % sur LIBERO et de 9,3 % sur RoboTwin. Plus important encore, une amélioration substantielle de 21,5 % dans les expériences en conditions réelles valide son efficacité pratique pour les tâches de manipulation robotique.

English

Vision-Language-Action (VLA) models are experiencing rapid development and demonstrating promising capabilities in robotic manipulation tasks. However, scaling up VLA models presents several critical challenges: (1) Training new VLA models from scratch demands substantial computational resources and extensive datasets. Given the current scarcity of robot data, it becomes particularly valuable to fully leverage well-pretrained VLA model weights during the scaling process. (2) Real-time control requires carefully balancing model capacity with computational efficiency. To address these challenges, We propose AdaMoE, a Mixture-of-Experts (MoE) architecture that inherits pretrained weights from dense VLA models, and scales up the action expert by substituting the feedforward layers into sparsely activated MoE layers. AdaMoE employs a decoupling technique that decouples expert selection from expert weighting through an independent scale adapter working alongside the traditional router. This enables experts to be selected based on task relevance while contributing with independently controlled weights, allowing collaborative expert utilization rather than winner-takes-all dynamics. Our approach demonstrates that expertise need not monopolize. Instead, through collaborative expert utilization, we can achieve superior performance while maintaining computational efficiency. AdaMoE consistently outperforms the baseline model across key benchmarks, delivering performance gains of 1.8% on LIBERO and 9.3% on RoboTwin. Most importantly, a substantial 21.5% improvement in real-world experiments validates its practical effectiveness for robotic manipulation tasks.

L'expertise n'a pas besoin de monopoliser : Mélange d'experts spécialisés dans l'action pour l'apprentissage vision-langage-action.

Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning

papers.abstract

Support