DUET-VLM: Redução Eficiente Unificada de Tokens em Duplo Estágio para Treino e Inferência de VLM

Resumo

Os modelos visão-linguagem (VLMs) alcançaram capacidades notáveis de compreensão e raciocínio multimodal, mas permanecem computacionalmente dispendiosos devido à tokenização visual densa. As abordagens de eficiência existentes ou fundem tokens visuais redundantes ou os descartam progressivamente no backbone linguístico, frequentemente trocando precisão por velocidade. Neste trabalho, propomos o DUET-VLM, uma estrutura de compressão dual versátil do tipo "plug-and-play" que consiste em (a) compressão apenas visual, com consciência de redundância, da saída do codificador visual em tokens que preservam informação, seguida por (b) descarte camada a camada, guiado por texto saliente, de tokens visuais dentro do backbone linguístico para podar progressivamente tokens menos informativos. Esta gestão coordenada de tokens permite uma compressão agressiva enquanto retém semântica crítica. No LLaVA-1.5-7B, nossa abordagem mantém mais de 99% da precisão da linha de base com 67% menos tokens, e ainda retém >97% mesmo com uma redução de 89%. Com esta compressão em dupla etapa durante o treinamento, atinge 99,7% de precisão a 67% e 97,6% a 89%, superando métodos anteriores do estado da arte para redução de tokens visuais em múltiplos benchmarks. Quando integrado no Video-LLaVA-7B, chega a superar a linha de base — alcançando >100% de precisão com uma substancial redução de 53,1% nos tokens e mantendo 97,6% de precisão sob uma configuração extrema de 93,4%. Estes resultados destacam o treinamento de fim a fim com o DUET-VLM, permitindo uma adaptação robusta a entradas visuais (imagem/vídeo) reduzidas sem sacrificar a precisão, produzindo representações compactas mas semanticamente ricas dentro do mesmo orçamento computacional. Nosso código está disponível em https://github.com/AMD-AGI/DUET-VLM.

English

Vision-language models (VLMs) have achieved remarkable multimodal understanding and reasoning capabilities, yet remain computationally expensive due to dense visual tokenization. Existing efficiency approaches either merge redundant visual tokens or drop them progressively in language backbone, often trading accuracy for speed. In this work, we propose DUET-VLM, a versatile plug-and-play dual compression framework that consists of (a) vision-only redundancy aware compression of vision encoder's output into information-preserving tokens, followed by (b) layer-wise, salient text-guided dropping of visual tokens within the language backbone to progressively prune less informative tokens. This coordinated token management enables aggressive compression while retaining critical semantics. On LLaVA-1.5-7B, our approach maintains over 99% of baseline accuracy with 67% fewer tokens, and still retains >97% even at 89% reduction. With this dual-stage compression during training, it achieves 99.7% accuracy at 67% and 97.6% at 89%, surpassing prior SoTA visual token reduction methods across multiple benchmarks. When integrated into Video-LLaVA-7B, it even surpasses the baseline -- achieving >100% accuracy with a substantial 53.1% token reduction and retaining 97.6% accuracy under an extreme 93.4% setting. These results highlight end-to-end training with DUET-VLM, enabling robust adaptation to reduced visual (image/video) input without sacrificing accuracy, producing compact yet semantically rich representations within the same computational budget. Our code is available at https://github.com/AMD-AGI/DUET-VLM.

DUET-VLM: Redução Eficiente Unificada de Tokens em Duplo Estágio para Treino e Inferência de VLM

DUET-VLM: Dual stage Unified Efficient Token reduction for VLM Training and Inference

Resumo

Support