ChatPaper.aiChatPaper

ネストされたエキスパートの混合:視覚トークンの適応的処理

Mixture of Nested Experts: Adaptive Processing of Visual Tokens

July 29, 2024
著者: Gagan Jain, Nidhi Hegde, Aditya Kusupati, Arsha Nagrani, Shyamal Buch, Prateek Jain, Anurag Arnab, Sujoy Paul
cs.AI

要旨

視覚メディア(画像と動画)は、本質的に大量の情報冗長性を含んでおり、処理効率を活用するための大きな機会を提供します。Vision Transformer (ViT) ベースのモデルは大規模なデータレジームに効果的にスケールしますが、この内在的な冗長性を活用できず、計算コストが高くなります。Mixture of Experts (MoE) ネットワークは、推論時のコストを維持しながらスケーラビリティを示しますが、より大きなパラメータフットプリントを伴います。本論文では、Mixture of Nested Experts (MoNE) を提案します。MoNE は、ネストされた構造をエキスパートに利用し、個々のエキスパートが計算精度曲線に沿って配置されます。与えられた計算予算のもと、MoNE はトークンを優先順位に従って動的に選択し、冗長なトークンはより低コストのネストされたエキスパートを通じて処理されます。このフレームワークを使用することで、ベースラインモデルと同等の性能を達成しつつ、推論時の計算量を2倍以上削減します。我々のアプローチを、標準的な画像および動画データセット(ImageNet-21K、Kinetics400、Something-Something-v2)で検証します。さらに、MoNE の適応性を強調するために、単一の訓練済みモデルを使用して、異なる推論時の計算予算においても動画に対して強力な性能を維持できることを示します。
English
The visual medium (images and videos) naturally contains a large amount of information redundancy, thereby providing a great opportunity for leveraging efficiency in processing. While Vision Transformer (ViT) based models scale effectively to large data regimes, they fail to capitalize on this inherent redundancy, leading to higher computational costs. Mixture of Experts (MoE) networks demonstrate scalability while maintaining same inference-time costs, but they come with a larger parameter footprint. We present Mixture of Nested Experts (MoNE), which utilizes a nested structure for experts, wherein individual experts fall on an increasing compute-accuracy curve. Given a compute budget, MoNE learns to dynamically choose tokens in a priority order, and thus redundant tokens are processed through cheaper nested experts. Using this framework, we achieve equivalent performance as the baseline models, while reducing inference time compute by over two-fold. We validate our approach on standard image and video datasets - ImageNet-21K, Kinetics400, and Something-Something-v2. We further highlight MoNE's adaptability by showcasing its ability to maintain strong performance across different inference-time compute budgets on videos, using only a single trained model.

Summary

AI-Generated Summary

PDF374November 28, 2024