ChatPaper.aiChatPaper

중첩 전문가 혼합 모델: 시각적 토큰의 적응적 처리

Mixture of Nested Experts: Adaptive Processing of Visual Tokens

July 29, 2024
저자: Gagan Jain, Nidhi Hegde, Aditya Kusupati, Arsha Nagrani, Shyamal Buch, Prateek Jain, Anurag Arnab, Sujoy Paul
cs.AI

초록

시각적 매체(이미지와 비디오)는 자연스럽게 많은 양의 정보 중복성을 포함하고 있어, 처리 효율성을 활용할 수 있는 큰 기회를 제공합니다. 비전 트랜스포머(ViT) 기반 모델은 대규모 데이터 영역에서 효과적으로 확장되지만, 이러한 내재된 중복성을 활용하지 못해 더 높은 계산 비용을 초래합니다. 전문가 혼합(MoE) 네트워크는 동일한 추론 시간 비용을 유지하면서 확장성을 보여주지만, 더 큰 파라미터 공간을 차지합니다. 우리는 중첩된 구조의 전문가를 활용하는 중첩 전문가 혼합(MoNE)을 제안합니다. 여기서 개별 전문가는 점점 증가하는 계산-정확도 곡선 상에 위치합니다. 주어진 계산 예산 내에서 MoNE는 토큰을 우선순위에 따라 동적으로 선택하도록 학습하며, 따라서 중복된 토큰은 더 저렴한 중첩 전문가를 통해 처리됩니다. 이 프레임워크를 사용하여 우리는 기준 모델과 동등한 성능을 달성하면서 추론 시간 계산을 두 배 이상 줄였습니다. 우리는 이 접근 방식을 표준 이미지 및 비디오 데이터셋인 ImageNet-21K, Kinetics400, Something-Something-v2에서 검증했습니다. 또한, MoNE의 적응성을 강조하기 위해 단일 훈련된 모델을 사용하여 비디오에서 다양한 추론 시간 계산 예산에 걸쳐 강력한 성능을 유지할 수 있는 능력을 보여줍니다.
English
The visual medium (images and videos) naturally contains a large amount of information redundancy, thereby providing a great opportunity for leveraging efficiency in processing. While Vision Transformer (ViT) based models scale effectively to large data regimes, they fail to capitalize on this inherent redundancy, leading to higher computational costs. Mixture of Experts (MoE) networks demonstrate scalability while maintaining same inference-time costs, but they come with a larger parameter footprint. We present Mixture of Nested Experts (MoNE), which utilizes a nested structure for experts, wherein individual experts fall on an increasing compute-accuracy curve. Given a compute budget, MoNE learns to dynamically choose tokens in a priority order, and thus redundant tokens are processed through cheaper nested experts. Using this framework, we achieve equivalent performance as the baseline models, while reducing inference time compute by over two-fold. We validate our approach on standard image and video datasets - ImageNet-21K, Kinetics400, and Something-Something-v2. We further highlight MoNE's adaptability by showcasing its ability to maintain strong performance across different inference-time compute budgets on videos, using only a single trained model.

Summary

AI-Generated Summary

PDF374November 28, 2024