L'esperienza non deve monopolizzare: Miscela di Esperti Specializzati in Azioni per l'Apprendimento Visione-Linguaggio-Azione
Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning
October 16, 2025
Autori: Weijie Shen, Yitian Liu, Yuhao Wu, Zhixuan Liang, Sijia Gu, Dehui Wang, Tian Nian, Lei Xu, Yusen Qin, Jiangmiao Pang, Xinping Guan, Xiaokang Yang, Yao Mu
cs.AI
Abstract
I modelli Vision-Language-Action (VLA) stanno vivendo uno sviluppo rapido e dimostrano capacità promettenti nei compiti di manipolazione robotica. Tuttavia, il ridimensionamento dei modelli VLA presenta diverse sfide critiche: (1) L'addestramento di nuovi modelli VLA da zero richiede risorse computazionali sostanziali e dataset estesi. Data l'attuale scarsità di dati robotici, diventa particolarmente prezioso sfruttare appieno i pesi di modelli VLA pre-addestrati durante il processo di ridimensionamento. (2) Il controllo in tempo reale richiede un bilanciamento accurato tra capacità del modello ed efficienza computazionale. Per affrontare queste sfide, proponiamo AdaMoE, un'architettura Mixture-of-Experts (MoE) che eredita i pesi pre-addestrati da modelli VLA densi e ridimensiona l'esperto di azione sostituendo i livelli feedforward con livelli MoE attivati in modo sparso. AdaMoE utilizza una tecnica di disaccoppiamento che separa la selezione degli esperti dalla ponderazione degli esperti attraverso un adattatore di scala indipendente che lavora insieme al router tradizionale. Ciò consente agli esperti di essere selezionati in base alla rilevanza del compito mentre contribuiscono con pesi controllati in modo indipendente, permettendo un utilizzo collaborativo degli esperti anziché una dinamica winner-takes-all. Il nostro approccio dimostra che l'esperienza non deve monopolizzare. Invece, attraverso un utilizzo collaborativo degli esperti, possiamo ottenere prestazioni superiori mantenendo l'efficienza computazionale. AdaMoE supera costantemente il modello di riferimento su benchmark chiave, ottenendo miglioramenti delle prestazioni dell'1,8% su LIBERO e del 9,3% su RoboTwin. Soprattutto, un sostanziale miglioramento del 21,5% negli esperimenti nel mondo reale ne convalida l'efficacia pratica per i compiti di manipolazione robotica.
English
Vision-Language-Action (VLA) models are experiencing rapid development and
demonstrating promising capabilities in robotic manipulation tasks. However,
scaling up VLA models presents several critical challenges: (1) Training new
VLA models from scratch demands substantial computational resources and
extensive datasets. Given the current scarcity of robot data, it becomes
particularly valuable to fully leverage well-pretrained VLA model weights
during the scaling process. (2) Real-time control requires carefully balancing
model capacity with computational efficiency. To address these challenges, We
propose AdaMoE, a Mixture-of-Experts (MoE) architecture that inherits
pretrained weights from dense VLA models, and scales up the action expert by
substituting the feedforward layers into sparsely activated MoE layers. AdaMoE
employs a decoupling technique that decouples expert selection from expert
weighting through an independent scale adapter working alongside the
traditional router. This enables experts to be selected based on task relevance
while contributing with independently controlled weights, allowing
collaborative expert utilization rather than winner-takes-all dynamics. Our
approach demonstrates that expertise need not monopolize. Instead, through
collaborative expert utilization, we can achieve superior performance while
maintaining computational efficiency. AdaMoE consistently outperforms the
baseline model across key benchmarks, delivering performance gains of 1.8% on
LIBERO and 9.3% on RoboTwin. Most importantly, a substantial 21.5% improvement
in real-world experiments validates its practical effectiveness for robotic
manipulation tasks.