Modelli Linguistici Multimodali Efficienti tramite Distillazione Progressiva della Coerenza

Abstract

I token visivi consumano risorse computazionali significative nei modelli multi-modali di grandi dimensioni (MLLMs), compromettendo notevolmente la loro efficienza. Recenti lavori hanno tentato di migliorare l'efficienza comprimendo i token visivi durante l'addestramento, sia attraverso modifiche ai componenti del modello che introducendo parametri aggiuntivi. Tuttavia, spesso trascurano la maggiore difficoltà di apprendimento causata da tale compressione, poiché lo spazio dei parametri del modello fatica ad adattarsi rapidamente alle sostanziali perturbazioni nello spazio delle feature indotte dalla compressione dei token. In questo lavoro, proponiamo di sviluppare MLLMs efficienti tramite Distillazione Progressiva della Coerenza (EPIC), un framework di apprendimento progressivo. Nello specifico, scomponendo le perturbazioni dello spazio delle feature introdotte dalla compressione dei token lungo le dimensioni token-wise e layer-wise, introduciamo rispettivamente la distillazione della coerenza dei token e la distillazione della coerenza dei layer, con l'obiettivo di ridurre la difficoltà di addestramento sfruttando la guida di un modello insegnante e seguendo una traiettoria di apprendimento progressiva. Esperimenti estesi dimostrano la superiorità in termini di efficacia, robustezza e capacità di generalizzazione del nostro framework proposto.

English

Visual tokens consume substantial computational resources in multi-modal large models (MLLMs), significantly compromising their efficiency. Recent works have attempted to improve efficiency by compressing visual tokens during training, either through modifications to model components or by introducing additional parameters. However, they often overlook the increased learning difficulty caused by such compression, as the model's parameter space struggles to quickly adapt to the substantial perturbations in the feature space induced by token compression. In this work, we propose to develop Efficient MLLMs via Progressive Consistency Distillation (EPIC), a progressive learning framework. Specifically, by decomposing the feature space perturbations introduced by token compression along the token-wise and layer-wise dimensions, we introduce token consistency distillation and layer consistency distillation, respectively, aiming to reduce the training difficulty by leveraging guidance from a teacher model and following a progressive learning trajectory. Extensive experiments demonstrate the superior effectiveness, robustness, and generalization capabilities of our proposed framework.

Modelli Linguistici Multimodali Efficienti tramite Distillazione Progressiva della Coerenza

Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

Abstract

Support