Expertise muss nicht monopolisiert werden: Handlungsspezialisierte Mischung von Experten für Vision-Sprache-Handlungslernen
Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning
October 16, 2025
papers.authors: Weijie Shen, Yitian Liu, Yuhao Wu, Zhixuan Liang, Sijia Gu, Dehui Wang, Tian Nian, Lei Xu, Yusen Qin, Jiangmiao Pang, Xinping Guan, Xiaokang Yang, Yao Mu
cs.AI
papers.abstract
Vision-Language-Action (VLA)-Modelle erleben eine rasante Entwicklung und zeigen vielversprechende Fähigkeiten in Aufgaben der robotergestützten Manipulation. Die Skalierung von VLA-Modellen birgt jedoch mehrere kritische Herausforderungen: (1) Das Training neuer VLA-Modelle von Grund auf erfordert erhebliche Rechenressourcen und umfangreiche Datensätze. Angesichts der derzeitigen Knappheit an Roboterdaten wird es besonders wertvoll, gut vortrainierte VLA-Modellgewichte während des Skalierungsprozesses vollständig zu nutzen. (2) Die Echtzeitsteuerung erfordert eine sorgfältige Abwägung zwischen Modellkapazität und Recheneffizienz. Um diese Herausforderungen zu bewältigen, schlagen wir AdaMoE vor, eine Mixture-of-Experts (MoE)-Architektur, die vortrainierte Gewichte aus dichten VLA-Modellen übernimmt und den Aktions-Experten skaliert, indem die Feedforward-Schichten durch spärlich aktivierte MoE-Schichten ersetzt werden. AdaMoE verwendet eine Entkopplungstechnik, die die Expertenauswahl von der Expertengewichtung durch einen unabhängigen Skalenadapter entkoppelt, der neben dem traditionellen Router arbeitet. Dies ermöglicht es, Experten basierend auf der Aufgabenrelevanz auszuwählen, während sie mit unabhängig gesteuerten Gewichten beitragen, was eine kollaborative Nutzung der Experten anstelle eines Winner-takes-all-Dynamik ermöglicht. Unser Ansatz zeigt, dass Expertise nicht monopolisiert werden muss. Stattdessen können wir durch die kollaborative Nutzung von Experten eine überlegene Leistung bei gleichzeitiger Aufrechterhaltung der Recheneffizienz erzielen. AdaMoE übertrifft das Basismodell konsequent in wichtigen Benchmarks und erzielt Leistungssteigerungen von 1,8 % bei LIBERO und 9,3 % bei RoboTwin. Am wichtigsten ist jedoch eine erhebliche Verbesserung von 21,5 % in realen Experimenten, die die praktische Wirksamkeit für robotergestützte Manipulationsaufgaben bestätigt.
English
Vision-Language-Action (VLA) models are experiencing rapid development and
demonstrating promising capabilities in robotic manipulation tasks. However,
scaling up VLA models presents several critical challenges: (1) Training new
VLA models from scratch demands substantial computational resources and
extensive datasets. Given the current scarcity of robot data, it becomes
particularly valuable to fully leverage well-pretrained VLA model weights
during the scaling process. (2) Real-time control requires carefully balancing
model capacity with computational efficiency. To address these challenges, We
propose AdaMoE, a Mixture-of-Experts (MoE) architecture that inherits
pretrained weights from dense VLA models, and scales up the action expert by
substituting the feedforward layers into sparsely activated MoE layers. AdaMoE
employs a decoupling technique that decouples expert selection from expert
weighting through an independent scale adapter working alongside the
traditional router. This enables experts to be selected based on task relevance
while contributing with independently controlled weights, allowing
collaborative expert utilization rather than winner-takes-all dynamics. Our
approach demonstrates that expertise need not monopolize. Instead, through
collaborative expert utilization, we can achieve superior performance while
maintaining computational efficiency. AdaMoE consistently outperforms the
baseline model across key benchmarks, delivering performance gains of 1.8% on
LIBERO and 9.3% on RoboTwin. Most importantly, a substantial 21.5% improvement
in real-world experiments validates its practical effectiveness for robotic
manipulation tasks.