ChatPaper.aiChatPaper

Экспертиза не должна быть монополизирована: Специализированная смесь экспертов для обучения на основе зрения, языка и действий

Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning

October 16, 2025
Авторы: Weijie Shen, Yitian Liu, Yuhao Wu, Zhixuan Liang, Sijia Gu, Dehui Wang, Tian Nian, Lei Xu, Yusen Qin, Jiangmiao Pang, Xinping Guan, Xiaokang Yang, Yao Mu
cs.AI

Аннотация

Модели Vision-Language-Action (VLA) переживают стремительное развитие и демонстрируют перспективные возможности в задачах роботизированного манипулирования. Однако масштабирование VLA-моделей сталкивается с несколькими критическими проблемами: (1) Обучение новых VLA-моделей с нуля требует значительных вычислительных ресурсов и обширных наборов данных. Учитывая текущий дефицит данных, связанных с роботами, становится особенно важным максимально использовать предварительно обученные веса VLA-моделей в процессе масштабирования. (2) Реализация управления в реальном времени требует тщательного баланса между производительностью модели и вычислительной эффективностью. Для решения этих задач мы предлагаем AdaMoE — архитектуру Mixture-of-Experts (MoE), которая наследует предварительно обученные веса плотных VLA-моделей и масштабирует эксперта по действиям, заменяя полносвязные слои на разреженно активируемые слои MoE. AdaMoE использует метод разделения, который отделяет выбор экспертов от взвешивания их вкладов с помощью независимого масштабирующего адаптера, работающего совместно с традиционным маршрутизатором. Это позволяет выбирать экспертов на основе релевантности задачи, при этом их вклад регулируется независимо, что способствует совместному использованию экспертов вместо динамики "победитель получает всё". Наш подход демонстрирует, что экспертиза не должна быть монополизирована. Вместо этого совместное использование экспертов позволяет достичь превосходной производительности при сохранении вычислительной эффективности. AdaMoE стабильно превосходит базовую модель по ключевым тестам, показывая улучшение производительности на 1,8% на LIBERO и на 9,3% на RoboTwin. Наиболее важно, что значительное улучшение на 21,5% в реальных экспериментах подтверждает практическую эффективность подхода для задач роботизированного манипулирования.
English
Vision-Language-Action (VLA) models are experiencing rapid development and demonstrating promising capabilities in robotic manipulation tasks. However, scaling up VLA models presents several critical challenges: (1) Training new VLA models from scratch demands substantial computational resources and extensive datasets. Given the current scarcity of robot data, it becomes particularly valuable to fully leverage well-pretrained VLA model weights during the scaling process. (2) Real-time control requires carefully balancing model capacity with computational efficiency. To address these challenges, We propose AdaMoE, a Mixture-of-Experts (MoE) architecture that inherits pretrained weights from dense VLA models, and scales up the action expert by substituting the feedforward layers into sparsely activated MoE layers. AdaMoE employs a decoupling technique that decouples expert selection from expert weighting through an independent scale adapter working alongside the traditional router. This enables experts to be selected based on task relevance while contributing with independently controlled weights, allowing collaborative expert utilization rather than winner-takes-all dynamics. Our approach demonstrates that expertise need not monopolize. Instead, through collaborative expert utilization, we can achieve superior performance while maintaining computational efficiency. AdaMoE consistently outperforms the baseline model across key benchmarks, delivering performance gains of 1.8% on LIBERO and 9.3% on RoboTwin. Most importantly, a substantial 21.5% improvement in real-world experiments validates its practical effectiveness for robotic manipulation tasks.
PDF112December 21, 2025