DUET-VLM: Duale gefaseerde geünificeerde efficiënte tokenreductie voor VLM-training en -inferentie

Samenvatting

Vision-language modellen (VLMs) hebben opmerkelijke multimodale begrips- en redeneercapaciteiten bereikt, maar blijven rekenkundig kostbaar vanwege dichte visuele tokenisatie. Bestaande efficiëntiebenaderingen fuseren ofwel redundante visuele tokens of verwijderen ze progressief in de taal-backbone, waarbij vaak nauwkeurigheid wordt ingeruild voor snelheid. In dit werk stellen we DUET-VLM voor, een veelzichtig plug-and-play dual compressieframework dat bestaat uit (a) visie-only, redundantiebewuste compressie van de uitvoer van de visie-encoder naar informatiebehoudende tokens, gevolgd door (b) laagsgewijze, saliënte tekstgeleide verwijdering van visuele tokens binnen de taal-backbone om minder informatieve tokens progressief te snoeien. Deze gecoördineerde tokenbeheer maakt agressieve compressie mogelijk terwijl kritieke semantiek behouden blijft. Op LLaVA-1.5-7B behoudt onze aanpak meer dan 99% van de baseline-nauwkeurigheid met 67% minder tokens, en behoudt zelfs >97% zelfs bij een reductie van 89%. Met deze dual-stage compressie tijdens training bereikt het 99,7% nauwkeurigheid bij 67% en 97,6% bij 89% reductie, waarmee het eerdere state-of-the-art methoden voor visuele tokenreductie overtreft op meerdere benchmarks. Wanneer geïntegreerd in Video-LLaVA-7B, overtreft het zelfs de baseline – het bereikt >100% nauwkeurigheid met een substantiële reductie van 53,1% tokens en behoudt 97,6% nauwkeurigheid onder een extreme instelling van 93,4%. Deze resultaten benadrukken end-to-end training met DUET-VLM, waardoor robuuste aanpassing aan gereduceerde visuele (beeld/video) input mogelijk is zonder nauwkeurigheid op te offeren, en compacte yet semantisch rijke representaties worden geproduceerd binnen hetzelfde rekenbudget. Onze code is beschikbaar op https://github.com/AMD-AGI/DUET-VLM.

English

Vision-language models (VLMs) have achieved remarkable multimodal understanding and reasoning capabilities, yet remain computationally expensive due to dense visual tokenization. Existing efficiency approaches either merge redundant visual tokens or drop them progressively in language backbone, often trading accuracy for speed. In this work, we propose DUET-VLM, a versatile plug-and-play dual compression framework that consists of (a) vision-only redundancy aware compression of vision encoder's output into information-preserving tokens, followed by (b) layer-wise, salient text-guided dropping of visual tokens within the language backbone to progressively prune less informative tokens. This coordinated token management enables aggressive compression while retaining critical semantics. On LLaVA-1.5-7B, our approach maintains over 99% of baseline accuracy with 67% fewer tokens, and still retains >97% even at 89% reduction. With this dual-stage compression during training, it achieves 99.7% accuracy at 67% and 97.6% at 89%, surpassing prior SoTA visual token reduction methods across multiple benchmarks. When integrated into Video-LLaVA-7B, it even surpasses the baseline -- achieving >100% accuracy with a substantial 53.1% token reduction and retaining 97.6% accuracy under an extreme 93.4% setting. These results highlight end-to-end training with DUET-VLM, enabling robust adaptation to reduced visual (image/video) input without sacrificing accuracy, producing compact yet semantically rich representations within the same computational budget. Our code is available at https://github.com/AMD-AGI/DUET-VLM.

DUET-VLM: Duale gefaseerde geünificeerde efficiënte tokenreductie voor VLM-training en -inferentie

DUET-VLM: Dual stage Unified Efficient Token reduction for VLM Training and Inference

Samenvatting

Support