ChatPaper.aiChatPaper

Mobile V-MoEs: スパースなMixture-of-ExpertsによるVision Transformersのスケールダウン

Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts

September 8, 2023
著者: Erik Daxberger, Floris Weers, Bowen Zhang, Tom Gunter, Ruoming Pang, Marcin Eichner, Michael Emmersberger, Yinfei Yang, Alexander Toshev, Xianzhi Du
cs.AI

要旨

スパースなMixture-of-Expertsモデル(MoE)は、入力トークンごとにモデルパラメータの小さなサブセットのみを活性化することで、モデルサイズと推論効率を切り離す能力から、最近注目を集めています。そのため、スパースMoEは前例のないスケーラビリティを実現し、自然言語処理やコンピュータビジョンなどの分野で大きな成功を収めています。本研究では、スパースMoEを活用してVision Transformers(ViTs)をスケールダウンし、リソースに制約のあるビジョンアプリケーションにとってより魅力的なものにすることを探求します。この目的のために、個々のパッチではなく画像全体をエキスパートにルーティングする、簡素化されモバイルフレンドリーなMoE設計を提案します。また、ルーターをガイドするためにスーパークラス情報を使用する、安定したMoEトレーニング手順を提案します。私たちのスパースなMobile Vision MoE(V-MoE)が、対応する密なViTよりも性能と効率の間でより良いトレードオフを達成できることを実証的に示します。例えば、ViT-Tinyモデルでは、私たちのMobile V-MoEはImageNet-1kで密な対応モデルを3.39%上回ります。わずか54M FLOPsの推論コストを持つさらに小さなViTバリアントでは、私たちのMoEは4.66%の改善を達成します。
English
Sparse Mixture-of-Experts models (MoEs) have recently gained popularity due to their ability to decouple model size from inference efficiency by only activating a small subset of the model parameters for any given input token. As such, sparse MoEs have enabled unprecedented scalability, resulting in tremendous successes across domains such as natural language processing and computer vision. In this work, we instead explore the use of sparse MoEs to scale-down Vision Transformers (ViTs) to make them more attractive for resource-constrained vision applications. To this end, we propose a simplified and mobile-friendly MoE design where entire images rather than individual patches are routed to the experts. We also propose a stable MoE training procedure that uses super-class information to guide the router. We empirically show that our sparse Mobile Vision MoEs (V-MoEs) can achieve a better trade-off between performance and efficiency than the corresponding dense ViTs. For example, for the ViT-Tiny model, our Mobile V-MoE outperforms its dense counterpart by 3.39% on ImageNet-1k. For an even smaller ViT variant with only 54M FLOPs inference cost, our MoE achieves an improvement of 4.66%.
PDF151December 15, 2024