ChatPaper.aiChatPaper

Modèles de langage multi-modaux efficaces via la distillation progressive de la cohérence

Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

October 1, 2025
papers.authors: Zichen Wen, Shaobo Wang, Yufa Zhou, Junyuan Zhang, Qintong Zhang, Yifeng Gao, Zhaorun Chen, Bin Wang, Weijia Li, Conghui He, Linfeng Zhang
cs.AI

papers.abstract

Les tokens visuels consomment des ressources computationnelles importantes dans les grands modèles multi-modaux (MLLMs), compromettant significativement leur efficacité. Des travaux récents ont tenté d'améliorer cette efficacité en compressant les tokens visuels pendant l'entraînement, soit par des modifications des composants du modèle, soit en introduisant des paramètres supplémentaires. Cependant, ils négligent souvent la difficulté d'apprentissage accrue causée par une telle compression, car l'espace des paramètres du modèle peine à s'adapter rapidement aux perturbations substantielles dans l'espace des caractéristiques induites par la compression des tokens. Dans ce travail, nous proposons de développer des MLLMs efficaces via la Distillation Progressive de la Cohérence (EPIC), un cadre d'apprentissage progressif. Plus précisément, en décomposant les perturbations de l'espace des caractéristiques introduites par la compression des tokens selon les dimensions token par token et couche par couche, nous introduisons respectivement la distillation de cohérence des tokens et la distillation de cohérence des couches, visant à réduire la difficulté d'entraînement en exploitant les conseils d'un modèle enseignant et en suivant une trajectoire d'apprentissage progressive. Des expériences approfondies démontrent l'efficacité supérieure, la robustesse et les capacités de généralisation de notre cadre proposé.
English
Visual tokens consume substantial computational resources in multi-modal large models (MLLMs), significantly compromising their efficiency. Recent works have attempted to improve efficiency by compressing visual tokens during training, either through modifications to model components or by introducing additional parameters. However, they often overlook the increased learning difficulty caused by such compression, as the model's parameter space struggles to quickly adapt to the substantial perturbations in the feature space induced by token compression. In this work, we propose to develop Efficient MLLMs via Progressive Consistency Distillation (EPIC), a progressive learning framework. Specifically, by decomposing the feature space perturbations introduced by token compression along the token-wise and layer-wise dimensions, we introduce token consistency distillation and layer consistency distillation, respectively, aiming to reduce the training difficulty by leveraging guidance from a teacher model and following a progressive learning trajectory. Extensive experiments demonstrate the superior effectiveness, robustness, and generalization capabilities of our proposed framework.
PDF382October 6, 2025