p-MoD: Aufbau von Mischungs-von-Tiefen MLLMs durch progressiven Verhältnisverfall
p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay
December 5, 2024
Autoren: Jun Zhang, Desen Meng, Ji Qi, Zhenpeng Huang, Tao Wu, Limin Wang
cs.AI
Zusammenfassung
Trotz der bemerkenswerten Leistung von multimodalen großen Sprachmodellen (MLLMs) bei verschiedenen Aufgaben behindern die erheblichen Schulungs- und Inferenzkosten ihren Fortschritt. Der Großteil der Berechnung resultiert aus dem überwältigenden Volumen von Bildtokens, die vom Transformer-Decoder verarbeitet werden. In diesem Artikel schlagen wir vor, effiziente MLLMs aufzubauen, indem wir den Mechanismus der Mischung von Tiefen (MoD) nutzen, bei dem jede Transformer-Decoder-Schicht wesentliche Bildtokens zur Verarbeitung auswählt und redundante überspringt. Die Integration von MoD in MLLMs ist jedoch nicht trivial. Um den Herausforderungen der Stabilität des Trainings und der Inferenz sowie begrenzter Trainingsdaten zu begegnen, passen wir das MoD-Modul mit zwei neuen Designs an: Tangens-Hyperbolicus-gesteuerte Gewichtsnormierung (TanhNorm) und symmetrische Token-Neugewichtung (STRing). Darüber hinaus stellen wir fest, dass Bildtokens in tieferen Schichten eine höhere Redundanz aufweisen und entwickeln daher eine progressive Verhältnisabnahme (PRD)-Strategie, die schichtweise das Token-Rückhalteverhältnis allmählich reduziert und einen verschobenen Cosinus-Zeitplan verwendet. Dieses entscheidende Design entfesselt das Potenzial von MoD vollständig und steigert signifikant die Effizienz und Leistung unserer Modelle. Um die Wirksamkeit unseres Ansatzes zu validieren, führen wir umfangreiche Experimente mit zwei Basislinienmodellen in 14 Benchmarks durch. Unser Modell, p-MoD, erreicht oder übertrifft sogar die Leistung der Basislinienmodelle, mit nur 55,6% TFLOPs und 53,8% KV-Cachespeicher während der Inferenz sowie 77,7% GPU-Stunden während des Trainings.
English
Despite the remarkable performance of multimodal large language models
(MLLMs) across diverse tasks, the substantial training and inference costs
impede their advancement. The majority of computation stems from the
overwhelming volume of vision tokens processed by the transformer decoder. In
this paper, we propose to build efficient MLLMs by leveraging the
Mixture-of-Depths (MoD) mechanism, where each transformer decoder layer selects
essential vision tokens to process while skipping redundant ones. However,
integrating MoD into MLLMs is non-trivial. To address the challenges of
training and inference stability as well as limited training data, we adapt the
MoD module with two novel designs: tanh-gated weight normalization (TanhNorm)
and symmetric token reweighting (STRing). Moreover, we observe that vision
tokens exhibit higher redundancy in deeper layer and thus design a progressive
ratio decay (PRD) strategy, which gradually reduces the token retention ratio
layer by layer, employing a shifted cosine schedule. This crucial design fully
unleashes the potential of MoD, significantly boosting the efficiency and
performance of our models. To validate the effectiveness of our approach, we
conduct extensive experiments with two baseline models across 14 benchmarks.
Our model, p-MoD, matches or even surpasses the performance of the baseline
models, with only 55.6% TFLOPs and 53.8% KV cache storage during inference, and
77.7% GPU hours during training.Summary
AI-Generated Summary