La especialización no necesita monopolizar: Mezcla de Expertos Especializados en Acciones para el Aprendizaje Visión-Lenguaje-Acción
Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning
October 16, 2025
Autores: Weijie Shen, Yitian Liu, Yuhao Wu, Zhixuan Liang, Sijia Gu, Dehui Wang, Tian Nian, Lei Xu, Yusen Qin, Jiangmiao Pang, Xinping Guan, Xiaokang Yang, Yao Mu
cs.AI
Resumen
Los modelos Visión-Lenguaje-Acción (VLA) están experimentando un desarrollo acelerado y demostrando capacidades prometedoras en tareas de manipulación robótica. Sin embargo, escalar estos modelos VLA presenta varios desafíos críticos: (1) Entrenar nuevos modelos VLA desde cero requiere recursos computacionales sustanciales y conjuntos de datos extensos. Dada la escasez actual de datos robóticos, resulta particularmente valioso aprovechar al máximo los pesos de modelos VLA preentrenados durante el proceso de escalamiento. (2) El control en tiempo real exige equilibrar cuidadosamente la capacidad del modelo con la eficiencia computacional. Para abordar estos desafíos, proponemos AdaMoE, una arquitectura de Mezcla de Expertos (MoE) que hereda pesos preentrenados de modelos VLA densos y escala el experto en acción sustituyendo las capas de retroalimentación por capas MoE activadas de manera dispersa. AdaMoE emplea una técnica de desacoplamiento que separa la selección de expertos de la ponderación de expertos mediante un adaptador de escala independiente que funciona junto con el enrutador tradicional. Esto permite que los expertos se seleccionen según la relevancia de la tarea mientras contribuyen con pesos controlados de manera independiente, facilitando la utilización colaborativa de expertos en lugar de dinámicas de "el ganador se lo lleva todo". Nuestro enfoque demuestra que la experiencia no necesita monopolizarse. En cambio, a través de la utilización colaborativa de expertos, podemos lograr un rendimiento superior manteniendo la eficiencia computacional. AdaMoE supera consistentemente al modelo de referencia en los principales puntos de comparación, obteniendo mejoras de rendimiento del 1.8% en LIBERO y del 9.3% en RoboTwin. Más importante aún, una mejora sustancial del 21.5% en experimentos del mundo real valida su efectividad práctica para tareas de manipulación robótica.
English
Vision-Language-Action (VLA) models are experiencing rapid development and
demonstrating promising capabilities in robotic manipulation tasks. However,
scaling up VLA models presents several critical challenges: (1) Training new
VLA models from scratch demands substantial computational resources and
extensive datasets. Given the current scarcity of robot data, it becomes
particularly valuable to fully leverage well-pretrained VLA model weights
during the scaling process. (2) Real-time control requires carefully balancing
model capacity with computational efficiency. To address these challenges, We
propose AdaMoE, a Mixture-of-Experts (MoE) architecture that inherits
pretrained weights from dense VLA models, and scales up the action expert by
substituting the feedforward layers into sparsely activated MoE layers. AdaMoE
employs a decoupling technique that decouples expert selection from expert
weighting through an independent scale adapter working alongside the
traditional router. This enables experts to be selected based on task relevance
while contributing with independently controlled weights, allowing
collaborative expert utilization rather than winner-takes-all dynamics. Our
approach demonstrates that expertise need not monopolize. Instead, through
collaborative expert utilization, we can achieve superior performance while
maintaining computational efficiency. AdaMoE consistently outperforms the
baseline model across key benchmarks, delivering performance gains of 1.8% on
LIBERO and 9.3% on RoboTwin. Most importantly, a substantial 21.5% improvement
in real-world experiments validates its practical effectiveness for robotic
manipulation tasks.