ChatPaper.aiChatPaper

Modelos de Linguagem Multimodais Eficientes via Distilação Progressiva de Consistência

Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

October 1, 2025
Autores: Zichen Wen, Shaobo Wang, Yufa Zhou, Junyuan Zhang, Qintong Zhang, Yifeng Gao, Zhaorun Chen, Bin Wang, Weijia Li, Conghui He, Linfeng Zhang
cs.AI

Resumo

Os tokens visuais consomem recursos computacionais substanciais em modelos grandes multimodais (MLLMs), comprometendo significativamente sua eficiência. Trabalhos recentes tentaram melhorar a eficiência comprimindo tokens visuais durante o treinamento, seja por meio de modificações nos componentes do modelo ou pela introdução de parâmetros adicionais. No entanto, eles frequentemente negligenciam o aumento da dificuldade de aprendizado causado por tal compressão, já que o espaço de parâmetros do modelo luta para se adaptar rapidamente às perturbações significativas no espaço de características induzidas pela compressão de tokens. Neste trabalho, propomos desenvolver MLLMs Eficientes via Distilação Progressiva de Consistência (EPIC), uma estrutura de aprendizado progressivo. Especificamente, ao decompor as perturbações no espaço de características introduzidas pela compressão de tokens ao longo das dimensões token-wise e layer-wise, introduzimos a distilação de consistência de tokens e a distilação de consistência de camadas, respectivamente, visando reduzir a dificuldade de treinamento ao aproveitar a orientação de um modelo professor e seguir uma trajetória de aprendizado progressiva. Experimentos extensivos demonstram a eficácia superior, robustez e capacidades de generalização da nossa estrutura proposta.
English
Visual tokens consume substantial computational resources in multi-modal large models (MLLMs), significantly compromising their efficiency. Recent works have attempted to improve efficiency by compressing visual tokens during training, either through modifications to model components or by introducing additional parameters. However, they often overlook the increased learning difficulty caused by such compression, as the model's parameter space struggles to quickly adapt to the substantial perturbations in the feature space induced by token compression. In this work, we propose to develop Efficient MLLMs via Progressive Consistency Distillation (EPIC), a progressive learning framework. Specifically, by decomposing the feature space perturbations introduced by token compression along the token-wise and layer-wise dimensions, we introduce token consistency distillation and layer consistency distillation, respectively, aiming to reduce the training difficulty by leveraging guidance from a teacher model and following a progressive learning trajectory. Extensive experiments demonstrate the superior effectiveness, robustness, and generalization capabilities of our proposed framework.
PDF392October 6, 2025