Modelos de Lenguaje de Gran Escala Multimodales Eficientes mediante Destilación de Consistencia Progresiva
Efficient Multi-modal Large Language Models via Progressive Consistency Distillation
October 1, 2025
Autores: Zichen Wen, Shaobo Wang, Yufa Zhou, Junyuan Zhang, Qintong Zhang, Yifeng Gao, Zhaorun Chen, Bin Wang, Weijia Li, Conghui He, Linfeng Zhang
cs.AI
Resumen
Los tokens visuales consumen recursos computacionales significativos en los modelos grandes multimodales (MLLMs, por sus siglas en inglés), comprometiendo notablemente su eficiencia. Trabajos recientes han intentado mejorar la eficiencia comprimiendo los tokens visuales durante el entrenamiento, ya sea mediante modificaciones a los componentes del modelo o introduciendo parámetros adicionales. Sin embargo, a menudo pasan por alto la mayor dificultad de aprendizaje causada por dicha compresión, ya que el espacio de parámetros del modelo lucha por adaptarse rápidamente a las perturbaciones sustanciales en el espacio de características inducidas por la compresión de tokens. En este trabajo, proponemos desarrollar MLLMs eficientes mediante la Destilación Progresiva de Consistencia (EPIC, por sus siglas en inglés), un marco de aprendizaje progresivo. Específicamente, al descomponer las perturbaciones en el espacio de características introducidas por la compresión de tokens a lo largo de las dimensiones token y capa, introducimos la destilación de consistencia de tokens y la destilación de consistencia de capas, respectivamente, con el objetivo de reducir la dificultad del entrenamiento aprovechando la guía de un modelo maestro y siguiendo una trayectoria de aprendizaje progresivo. Experimentos exhaustivos demuestran la superior efectividad, robustez y capacidades de generalización de nuestro marco propuesto.
English
Visual tokens consume substantial computational resources in multi-modal
large models (MLLMs), significantly compromising their efficiency. Recent works
have attempted to improve efficiency by compressing visual tokens during
training, either through modifications to model components or by introducing
additional parameters. However, they often overlook the increased learning
difficulty caused by such compression, as the model's parameter space struggles
to quickly adapt to the substantial perturbations in the feature space induced
by token compression. In this work, we propose to develop Efficient MLLMs via
Progressive Consistency Distillation (EPIC), a progressive learning framework.
Specifically, by decomposing the feature space perturbations introduced by
token compression along the token-wise and layer-wise dimensions, we introduce
token consistency distillation and layer consistency distillation,
respectively, aiming to reduce the training difficulty by leveraging guidance
from a teacher model and following a progressive learning trajectory. Extensive
experiments demonstrate the superior effectiveness, robustness, and
generalization capabilities of our proposed framework.