ChatPaper.aiChatPaper

専門性は独占する必要はない:視覚・言語・行動学習のための行動特化型エキスパート混合モデル

Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning

October 16, 2025
著者: Weijie Shen, Yitian Liu, Yuhao Wu, Zhixuan Liang, Sijia Gu, Dehui Wang, Tian Nian, Lei Xu, Yusen Qin, Jiangmiao Pang, Xinping Guan, Xiaokang Yang, Yao Mu
cs.AI

要旨

Vision-Language-Action(VLA)モデルは急速に発展しており、ロボット操作タスクにおいて有望な能力を示しています。しかし、VLAモデルのスケールアップにはいくつかの重要な課題があります:(1)新しいVLAモデルをゼロからトレーニングするには、膨大な計算リソースと大規模なデータセットが必要です。現在、ロボットデータが不足している状況を考慮すると、スケールアッププロセスにおいて、事前に十分にトレーニングされたVLAモデルの重みを最大限に活用することが特に重要です。(2)リアルタイム制御では、モデルの容量と計算効率を慎重にバランスさせる必要があります。これらの課題に対処するため、我々はAdaMoEを提案します。これは、Mixture-of-Experts(MoE)アーキテクチャを採用し、密なVLAモデルから事前学習された重みを継承し、フィードフォワード層を疎に活性化されたMoE層に置き換えることでアクションエキスパートをスケールアップします。AdaMoEは、従来のルーターと並行して動作する独立したスケールアダプターを通じて、エキスパート選択とエキスパート重み付けを分離するデカップリング技術を採用しています。これにより、タスクの関連性に基づいてエキスパートを選択しつつ、独立して制御された重みで貢献させることが可能となり、勝者総取りの動力学ではなく、協調的なエキスパート活用を実現します。我々のアプローチは、専門性が独占される必要がないことを示しています。代わりに、協調的なエキスパート活用を通じて、計算効率を維持しながら優れた性能を達成できます。AdaMoEは、主要なベンチマークにおいてベースラインモデルを一貫して上回り、LIBEROでは1.8%、RoboTwinでは9.3%の性能向上を実現しました。最も重要なのは、実世界の実験において21.5%の大幅な改善が確認され、ロボット操作タスクにおける実用的な有効性が検証されたことです。
English
Vision-Language-Action (VLA) models are experiencing rapid development and demonstrating promising capabilities in robotic manipulation tasks. However, scaling up VLA models presents several critical challenges: (1) Training new VLA models from scratch demands substantial computational resources and extensive datasets. Given the current scarcity of robot data, it becomes particularly valuable to fully leverage well-pretrained VLA model weights during the scaling process. (2) Real-time control requires carefully balancing model capacity with computational efficiency. To address these challenges, We propose AdaMoE, a Mixture-of-Experts (MoE) architecture that inherits pretrained weights from dense VLA models, and scales up the action expert by substituting the feedforward layers into sparsely activated MoE layers. AdaMoE employs a decoupling technique that decouples expert selection from expert weighting through an independent scale adapter working alongside the traditional router. This enables experts to be selected based on task relevance while contributing with independently controlled weights, allowing collaborative expert utilization rather than winner-takes-all dynamics. Our approach demonstrates that expertise need not monopolize. Instead, through collaborative expert utilization, we can achieve superior performance while maintaining computational efficiency. AdaMoE consistently outperforms the baseline model across key benchmarks, delivering performance gains of 1.8% on LIBERO and 9.3% on RoboTwin. Most importantly, a substantial 21.5% improvement in real-world experiments validates its practical effectiveness for robotic manipulation tasks.
PDF82October 17, 2025