VisionZip: Mais Longo é Melhor, mas Não Necessário em Modelos de Linguagem VisualVisionZip: Longer is Better but Not Necessary in Vision Language Models
Os avanços recentes em modelos de visão-linguagem têm aprimorado o desempenho ao aumentar o comprimento dos tokens visuais, tornando-os muito mais longos do que os tokens de texto e aumentando significativamente os custos computacionais. No entanto, observamos que os tokens visuais gerados por codificadores de visão populares, como CLIP e SigLIP, contêm uma redundância significativa. Para lidar com isso, introduzimos o VisionZip, um método simples, porém eficaz, que seleciona um conjunto de tokens informativos para entrada no modelo de linguagem, reduzindo a redundância dos tokens visuais e melhorando a eficiência, mantendo o desempenho do modelo. O VisionZip proposto pode ser amplamente aplicado a tarefas de compreensão de imagens e vídeos e é adequado para diálogos de várias rodadas em cenários do mundo real, onde métodos anteriores tendem a ter desempenho inferior. Resultados experimentais mostram que o VisionZip supera o método anterior de última geração em pelo menos 5% de ganhos de desempenho em quase todas as configurações. Além disso, nosso método melhora significativamente a velocidade de inferência do modelo, reduzindo o tempo de preenchimento em 8 vezes e permitindo que o modelo LLaVA-Next 13B infira mais rápido do que o modelo LLaVA-Next 7B, alcançando melhores resultados. Além disso, analisamos as causas dessa redundância e incentivamos a comunidade a focar em extrair melhores características visuais em vez de simplesmente aumentar o comprimento dos tokens. Nosso código está disponível em https://github.com/dvlab-research/VisionZip.