A expertise não precisa monopolizar: Mistura de Especialistas Especializada em Ação para Aprendizado Visão-Linguagem-Ação
Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning
October 16, 2025
Autores: Weijie Shen, Yitian Liu, Yuhao Wu, Zhixuan Liang, Sijia Gu, Dehui Wang, Tian Nian, Lei Xu, Yusen Qin, Jiangmiao Pang, Xinping Guan, Xiaokang Yang, Yao Mu
cs.AI
Resumo
Os modelos Visão-Linguagem-Ação (VLA) estão passando por um desenvolvimento rápido e demonstrando capacidades promissoras em tarefas de manipulação robótica. No entanto, a escalabilidade desses modelos apresenta vários desafios críticos: (1) Treinar novos modelos VLA do zero exige recursos computacionais substanciais e conjuntos de dados extensos. Dada a escassez atual de dados robóticos, torna-se particularmente valioso aproveitar ao máximo os pesos de modelos VLA bem pré-treinados durante o processo de escalonamento. (2) O controle em tempo real requer um equilíbrio cuidadoso entre a capacidade do modelo e a eficiência computacional. Para enfrentar esses desafios, propomos o AdaMoE, uma arquitetura de Mistura de Especialistas (MoE) que herda pesos pré-treinados de modelos VLA densos e escala o especialista em ação substituindo as camadas feedforward por camadas MoE ativadas esparsamente. O AdaMoE emprega uma técnica de desacoplamento que separa a seleção de especialistas da ponderação de especialistas por meio de um adaptador de escala independente que trabalha junto ao roteador tradicional. Isso permite que os especialistas sejam selecionados com base na relevância da tarefa, enquanto contribuem com pesos controlados de forma independente, possibilitando a utilização colaborativa de especialistas em vez de uma dinâmica de "vencedor leva tudo". Nossa abordagem demonstra que a expertise não precisa ser monopolizada. Em vez disso, por meio da utilização colaborativa de especialistas, podemos alcançar desempenho superior enquanto mantemos a eficiência computacional. O AdaMoE supera consistentemente o modelo de referência em benchmarks-chave, obtendo ganhos de desempenho de 1,8% no LIBERO e 9,3% no RoboTwin. Mais importante, uma melhoria substancial de 21,5% em experimentos do mundo real valida sua eficácia prática para tarefas de manipulação robótica.
English
Vision-Language-Action (VLA) models are experiencing rapid development and
demonstrating promising capabilities in robotic manipulation tasks. However,
scaling up VLA models presents several critical challenges: (1) Training new
VLA models from scratch demands substantial computational resources and
extensive datasets. Given the current scarcity of robot data, it becomes
particularly valuable to fully leverage well-pretrained VLA model weights
during the scaling process. (2) Real-time control requires carefully balancing
model capacity with computational efficiency. To address these challenges, We
propose AdaMoE, a Mixture-of-Experts (MoE) architecture that inherits
pretrained weights from dense VLA models, and scales up the action expert by
substituting the feedforward layers into sparsely activated MoE layers. AdaMoE
employs a decoupling technique that decouples expert selection from expert
weighting through an independent scale adapter working alongside the
traditional router. This enables experts to be selected based on task relevance
while contributing with independently controlled weights, allowing
collaborative expert utilization rather than winner-takes-all dynamics. Our
approach demonstrates that expertise need not monopolize. Instead, through
collaborative expert utilization, we can achieve superior performance while
maintaining computational efficiency. AdaMoE consistently outperforms the
baseline model across key benchmarks, delivering performance gains of 1.8% on
LIBERO and 9.3% on RoboTwin. Most importantly, a substantial 21.5% improvement
in real-world experiments validates its practical effectiveness for robotic
manipulation tasks.