Эффективные мультимодальные большие языковые модели с использованием прогрессивной консистенции дистилляции
Efficient Multi-modal Large Language Models via Progressive Consistency Distillation
October 1, 2025
Авторы: Zichen Wen, Shaobo Wang, Yufa Zhou, Junyuan Zhang, Qintong Zhang, Yifeng Gao, Zhaorun Chen, Bin Wang, Weijia Li, Conghui He, Linfeng Zhang
cs.AI
Аннотация
Визуальные токены потребляют значительные вычислительные ресурсы в мультимодальных больших моделях (MLLMs), существенно снижая их эффективность. Недавние работы пытались повысить эффективность путем сжатия визуальных токенов во время обучения, либо через модификации компонентов модели, либо путем введения дополнительных параметров. Однако они часто упускают из виду увеличение сложности обучения, вызванное таким сжатием, так как пространство параметров модели с трудом адаптируется к значительным возмущениям в пространстве признаков, вызванным сжатием токенов. В данной работе мы предлагаем разработать эффективные MLLMs с помощью прогрессивного согласованного дистилляции (EPIC), прогрессивной обучающей структуры. В частности, путем декомпозиции возмущений в пространстве признаков, вводимых сжатием токенов, по измерениям токенов и слоев, мы вводим согласованную дистилляцию токенов и согласованную дистилляцию слоев соответственно, стремясь снизить сложность обучения за счет использования руководства от учительской модели и следования прогрессивной траектории обучения. Многочисленные эксперименты демонстрируют превосходную эффективность, устойчивость и обобщающие способности предложенной нами структуры.
English
Visual tokens consume substantial computational resources in multi-modal
large models (MLLMs), significantly compromising their efficiency. Recent works
have attempted to improve efficiency by compressing visual tokens during
training, either through modifications to model components or by introducing
additional parameters. However, they often overlook the increased learning
difficulty caused by such compression, as the model's parameter space struggles
to quickly adapt to the substantial perturbations in the feature space induced
by token compression. In this work, we propose to develop Efficient MLLMs via
Progressive Consistency Distillation (EPIC), a progressive learning framework.
Specifically, by decomposing the feature space perturbations introduced by
token compression along the token-wise and layer-wise dimensions, we introduce
token consistency distillation and layer consistency distillation,
respectively, aiming to reduce the training difficulty by leveraging guidance
from a teacher model and following a progressive learning trajectory. Extensive
experiments demonstrate the superior effectiveness, robustness, and
generalization capabilities of our proposed framework.