ChatPaper.aiChatPaper

Efficiënte Multi-modale Grote Taalmodellen via Progressieve Consistentie Distillatie

Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

October 1, 2025
Auteurs: Zichen Wen, Shaobo Wang, Yufa Zhou, Junyuan Zhang, Qintong Zhang, Yifeng Gao, Zhaorun Chen, Bin Wang, Weijia Li, Conghui He, Linfeng Zhang
cs.AI

Samenvatting

Visuele tokens verbruiken aanzienlijke rekenbronnen in multi-modale grote modellen (MLLMs), wat hun efficiëntie aanzienlijk aantast. Recente werken hebben geprobeerd de efficiëntie te verbeteren door visuele tokens tijdens de training te comprimeren, hetzij door aanpassingen aan modelcomponenten of door het introduceren van extra parameters. Ze negeren echter vaak de toegenomen leercomplexiteit die door dergelijke compressie wordt veroorzaakt, aangezien de parameterruimte van het model moeite heeft zich snel aan te passen aan de aanzienlijke verstoringen in de kenmerkruimte die worden veroorzaakt door tokencompressie. In dit werk stellen we voor om Efficiënte MLLMs te ontwikkelen via Progressieve Consistentie Distillatie (EPIC), een progressief leerframework. Specifiek, door de verstoringen in de kenmerkruimte die door tokencompressie worden geïntroduceerd te ontbinden langs de token- en laaggewijze dimensies, introduceren we respectievelijk token consistentie distillatie en laag consistentie distillatie, met als doel de trainingscomplexiteit te verminderen door gebruik te maken van begeleiding van een leraarmodel en een progressief leertraject te volgen. Uitgebreide experimenten tonen de superieure effectiviteit, robuustheid en generalisatiecapaciteiten van ons voorgestelde framework aan.
English
Visual tokens consume substantial computational resources in multi-modal large models (MLLMs), significantly compromising their efficiency. Recent works have attempted to improve efficiency by compressing visual tokens during training, either through modifications to model components or by introducing additional parameters. However, they often overlook the increased learning difficulty caused by such compression, as the model's parameter space struggles to quickly adapt to the substantial perturbations in the feature space induced by token compression. In this work, we propose to develop Efficient MLLMs via Progressive Consistency Distillation (EPIC), a progressive learning framework. Specifically, by decomposing the feature space perturbations introduced by token compression along the token-wise and layer-wise dimensions, we introduce token consistency distillation and layer consistency distillation, respectively, aiming to reduce the training difficulty by leveraging guidance from a teacher model and following a progressive learning trajectory. Extensive experiments demonstrate the superior effectiveness, robustness, and generalization capabilities of our proposed framework.
PDF392October 6, 2025