Effiziente multimodale Large Language Models durch progressive Konsistenzdestillation

papers.abstract

Visuelle Tokens verbrauchen erhebliche Rechenressourcen in multimodalen großen Modellen (MLLMs), was deren Effizienz erheblich beeinträchtigt. Neuere Arbeiten haben versucht, die Effizienz durch die Komprimierung visueller Tokens während des Trainings zu verbessern, entweder durch Modifikationen an Modellkomponenten oder durch die Einführung zusätzlicher Parameter. Sie übersehen jedoch oft die erhöhte Lernschwierigkeit, die durch eine solche Komprimierung verursacht wird, da der Parameterraum des Modells Schwierigkeiten hat, sich schnell an die erheblichen Störungen im Merkmalsraum anzupassen, die durch die Token-Komprimierung induziert werden. In dieser Arbeit schlagen wir vor, effiziente MLLMs durch Progressive Konsistenzdestillation (EPIC), ein progressives Lernframework, zu entwickeln. Insbesondere durch die Zerlegung der durch die Token-Komprimierung eingeführten Störungen im Merkmalsraum entlang der Token- und Schichtdimensionen führen wir Token-Konsistenzdestillation und Schicht-Konsistenzdestillation ein, mit dem Ziel, die Trainingsschwierigkeit durch die Nutzung von Anleitungen eines Lehrermodells und durch das Verfolgen eines progressiven Lernpfads zu reduzieren. Umfangreiche Experimente demonstrieren die überlegene Effektivität, Robustheit und Generalisierungsfähigkeit unseres vorgeschlagenen Frameworks.

English

Visual tokens consume substantial computational resources in multi-modal large models (MLLMs), significantly compromising their efficiency. Recent works have attempted to improve efficiency by compressing visual tokens during training, either through modifications to model components or by introducing additional parameters. However, they often overlook the increased learning difficulty caused by such compression, as the model's parameter space struggles to quickly adapt to the substantial perturbations in the feature space induced by token compression. In this work, we propose to develop Efficient MLLMs via Progressive Consistency Distillation (EPIC), a progressive learning framework. Specifically, by decomposing the feature space perturbations introduced by token compression along the token-wise and layer-wise dimensions, we introduce token consistency distillation and layer consistency distillation, respectively, aiming to reduce the training difficulty by leveraging guidance from a teacher model and following a progressive learning trajectory. Extensive experiments demonstrate the superior effectiveness, robustness, and generalization capabilities of our proposed framework.

Effiziente multimodale Large Language Models durch progressive Konsistenzdestillation

Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

papers.abstract

Support