ChatPaper.aiChatPaper

p-MoD: Het bouwen van Mengsel-van-Dieptes MLLM's via Progressieve Verhoudingsafname

p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay

December 5, 2024
Auteurs: Jun Zhang, Desen Meng, Ji Qi, Zhenpeng Huang, Tao Wu, Limin Wang
cs.AI

Samenvatting

Ondanks de opmerkelijke prestaties van multimodale grote taalmodellen (MLLM's) bij diverse taken, belemmeren de aanzienlijke trainings- en inferentiekosten hun vooruitgang. De meerderheid van de berekeningen komt voort uit het overweldigende volume aan visuele tokens verwerkt door de transformer decoder. In dit artikel stellen we voor om efficiënte MLLM's te bouwen door gebruik te maken van het Mixture-of-Depths (MoD) mechanisme, waarbij elke transformer decoder laag essentiële visuele tokens selecteert om te verwerken terwijl overbodige worden overgeslagen. Het integreren van MoD in MLLM's is echter niet triviaal. Om de uitdagingen van trainings- en inferentiestabiliteit en beperkte trainingsdata aan te pakken, passen we de MoD-module aan met twee nieuwe ontwerpen: tanh-gepoorte gewichtnormalisatie (TanhNorm) en symmetrische token-herweging (STRing). Bovendien merken we op dat visuele tokens een hogere redundantie vertonen in diepere lagen en ontwerpen daarom een progressieve verhoudingsafname (PRD) strategie, die geleidelijk de tokenretentieverhouding laag voor laag vermindert, met behulp van een verschoven cosinusschema. Dit cruciale ontwerp ontketent volledig het potentieel van MoD, wat de efficiëntie en prestaties van onze modellen aanzienlijk verbetert. Om de effectiviteit van onze aanpak te valideren, voeren we uitgebreide experimenten uit met twee basismodellen over 14 benchmarks. Ons model, p-MoD, evenaart of overtreft zelfs de prestaties van de basismodellen, met slechts 55,6% TFLOPs en 53,8% KV-cacheopslag tijdens inferentie, en 77,7% GPU-uren tijdens training.
English
Despite the remarkable performance of multimodal large language models (MLLMs) across diverse tasks, the substantial training and inference costs impede their advancement. The majority of computation stems from the overwhelming volume of vision tokens processed by the transformer decoder. In this paper, we propose to build efficient MLLMs by leveraging the Mixture-of-Depths (MoD) mechanism, where each transformer decoder layer selects essential vision tokens to process while skipping redundant ones. However, integrating MoD into MLLMs is non-trivial. To address the challenges of training and inference stability as well as limited training data, we adapt the MoD module with two novel designs: tanh-gated weight normalization (TanhNorm) and symmetric token reweighting (STRing). Moreover, we observe that vision tokens exhibit higher redundancy in deeper layer and thus design a progressive ratio decay (PRD) strategy, which gradually reduces the token retention ratio layer by layer, employing a shifted cosine schedule. This crucial design fully unleashes the potential of MoD, significantly boosting the efficiency and performance of our models. To validate the effectiveness of our approach, we conduct extensive experiments with two baseline models across 14 benchmarks. Our model, p-MoD, matches or even surpasses the performance of the baseline models, with only 55.6% TFLOPs and 53.8% KV cache storage during inference, and 77.7% GPU hours during training.
PDF72December 6, 2024