DUET-VLM: Riduzione Efficiente Unificata dei Token a Doppio Stadio per l'Addestramento e l'Inferenza dei VLM

Abstract

I modelli visione-linguaggio (VLM) hanno raggiunto capacità multimodali di comprensione e ragionamento notevoli, ma rimangono computazionalmente costosi a causa della tokenizzazione visiva densa. Gli approcci esistenti per l'efficienza uniscono i token visivi ridondanti o li scartano progressivamente nel backbone linguistico, spesso sacrificando l'accuratezza per la velocità. In questo lavoro, proponiamo DUET-VLM, un framework versatile di compressione duale plug-and-play che consiste in (a) una compressione visiva, consapevole della ridondanza, dell'output dell'encoder visivo in token che preservano le informazioni, seguita da (b) uno scarto stratificato e saliente, guidato dal testo, dei token visivi all'interno del backbone linguistico per potare progressivamente i token meno informativi. Questa gestione coordinata dei token consente una compressione aggressiva preservando la semantica critica. Su LLaVA-1.5-7B, il nostro approccio mantiene oltre il 99% dell'accuratezza di base con il 67% in meno di token e conserva ancora >97% anche con una riduzione dell'89%. Con questa compressione a doppio stadio durante l'addestramento, raggiunge un'accuratezza del 99,7% al 67% di riduzione e del 97,6% all'89%, superando i precedenti metodi SoTA per la riduzione dei token visivi su molteplici benchmark. Quando integrato in Video-LLaVA-7B, supera persine il baseline – ottenendo un'accuratezza >100% con una sostanziale riduzione del 53,1% dei token e mantenendo il 97,6% di accuratezza in un'impostazione estrema del 93,4%. Questi risultati evidenziano l'addestramento end-to-end con DUET-VLM, che consente una robusta adattazione a input visivi (immagine/video) ridotti senza sacrificare l'accuratezza, producendo rappresentazioni compatte ma semanticamente ricche entro lo stesso budget computazionale. Il nostro codice è disponibile all'indirizzo https://github.com/AMD-AGI/DUET-VLM.

English

Vision-language models (VLMs) have achieved remarkable multimodal understanding and reasoning capabilities, yet remain computationally expensive due to dense visual tokenization. Existing efficiency approaches either merge redundant visual tokens or drop them progressively in language backbone, often trading accuracy for speed. In this work, we propose DUET-VLM, a versatile plug-and-play dual compression framework that consists of (a) vision-only redundancy aware compression of vision encoder's output into information-preserving tokens, followed by (b) layer-wise, salient text-guided dropping of visual tokens within the language backbone to progressively prune less informative tokens. This coordinated token management enables aggressive compression while retaining critical semantics. On LLaVA-1.5-7B, our approach maintains over 99% of baseline accuracy with 67% fewer tokens, and still retains >97% even at 89% reduction. With this dual-stage compression during training, it achieves 99.7% accuracy at 67% and 97.6% at 89%, surpassing prior SoTA visual token reduction methods across multiple benchmarks. When integrated into Video-LLaVA-7B, it even surpasses the baseline -- achieving >100% accuracy with a substantial 53.1% token reduction and retaining 97.6% accuracy under an extreme 93.4% setting. These results highlight end-to-end training with DUET-VLM, enabling robust adaptation to reduced visual (image/video) input without sacrificing accuracy, producing compact yet semantically rich representations within the same computational budget. Our code is available at https://github.com/AMD-AGI/DUET-VLM.

DUET-VLM: Riduzione Efficiente Unificata dei Token a Doppio Stadio per l'Addestramento e l'Inferenza dei VLM

DUET-VLM: Dual stage Unified Efficient Token reduction for VLM Training and Inference

Abstract

Support