PixelPrune: Redução Adaptativa de Tokens Visuais em Nível de Pixel via Codificação Preditiva

Resumo

A compreensão de documentos e a interação com GUI estão entre as aplicações de maior valor dos Modelos de Visão-Linguagem (VLMs), mas impõem uma carga computacional excepcionalmente pesada: textos de alta granularidade e pequenos elementos de interface exigem entradas de alta resolução que produzem dezenas de milhares de tokens visuais. Observamos que esse custo é amplamente desperdiçado — em benchmarks de documentos e GUI, apenas 22–71% dos patches de imagem são únicos em termos de pixels, sendo o restante duplicatas exatas de outro patch na mesma imagem. Propomos o PixelPrune, que explora essa redundância em nível de pixel por meio de compressão baseada em codificação preditiva, podando patches redundantes antes do codificador do Transformer de Visão (ViT). Como opera no espaço de pixel antes de qualquer computação neural, o PixelPrune acelera tanto o codificador ViT quanto o LLM downstream, cobrindo todo o pipeline de inferência. O método dispensa treinamento, não requer parâmetros aprendíveis e suporta compressão sem perda de pixels (τ{=}0), bem como compressão com perda controlada (τ{>}0). Experimentos em três escalas de modelo e benchmarks de documentos e GUI mostram que o PixelPrune mantém precisão competitiva nas tarefas, ao mesmo tempo que proporciona uma aceleração de inferência de até 4,2 vezes e uma aceleração de treinamento de 1,9 vezes. O código está disponível em https://github.com/OPPO-Mente-Lab/PixelPrune.

English

Document understanding and GUI interaction are among the highest-value applications of Vision-Language Models (VLMs), yet they impose exceptionally heavy computational burden: fine-grained text and small UI elements demand high-resolution inputs that produce tens of thousands of visual tokens. We observe that this cost is largely wasteful -- across document and GUI benchmarks, only 22--71\% of image patches are pixel-unique, the rest being exact duplicates of another patch in the same image. We propose PixelPrune, which exploits this pixel-level redundancy through predictive-coding-based compression, pruning redundant patches before the Vision Transformer (ViT) encoder. Because it operates in pixel space prior to any neural computation, PixelPrune accelerates both the ViT encoder and the downstream LLM, covering the full inference pipeline. The method is training-free, requires no learnable parameters, and supports pixel-lossless compression (τ{=}0) as well as controlled lossy compression (τ{>}0). Experiments across three model scales and document and GUI benchmarks show that PixelPrune maintains competitive task accuracy while delivering up to 4.2times inference speedup and 1.9times training acceleration. Code is available at https://github.com/OPPO-Mente-Lab/PixelPrune.