Redirecione, Não Remova: Roteamento Recuperável de Tokens Visuais para Modelos de Visão-Linguagem

Resumo

Modelos de visão-linguagem (VLMs) projetam imagens em centenas a milhares de tokens visuais, tornando a inferência do decodificador cara tanto em termos de computação de atenção quanto de memória cache KV. Os métodos existentes de redução de tokens visuais seguem em grande parte um paradigma de classificar e remover: eles pontuam tokens visuais, mantêm um subconjunto compacto e descartam permanentemente o restante. Mostramos que essa ação irreversível é frágil porque a importância dos tokens visuais muda ao longo da profundidade do decodificador; tokens classificados como baixos em um estágio podem se tornar relevantes em camadas posteriores, especialmente para consultas sensíveis à ancoragem (grounding). Propomos o Reroute, um plugin livre de treinamento que substitui a remoção por roteamento recuperável. Em cada estágio de roteamento, os tokens visuais selecionados passam pelos blocos do decodificador, enquanto os tokens adiados contornam o estágio e reentram no pool de candidatos na próxima decisão de roteamento. O Reroute reutiliza regras existentes de classificação por pontuação de atenção e cronogramas por estágio, preservando a classe teórica de TFLOPs e orçamento de cache KV do método de poda que ele aumenta. Em variantes FastV, PDrop e Nüwa nos backbones LLaVA-1.5 e Qwen, o Reroute melhora a ancoragem sob redução agressiva de tokens, mantendo o desempenho geral em VQA. Esses resultados sugerem que a redução de tokens visuais em VLMs não deve ser vista apenas como poda irreversível, mas também como roteamento recuperável. O código pode ser encontrado aqui: https://github.com/elmma/mllm-reroute/

English

Vision-language models (VLMs) project images into hundreds to thousands of visual tokens, making decoder inference expensive in both attention computation and KV-cache memory. Existing visual-token reduction methods largely follow a rank-and-remove paradigm: they score visual tokens, keep a compact subset, and permanently discard the rest. We show that this irreversible action is fragile because visual-token importance changes across decoder depth; tokens ranked low at one stage may become relevant in later layers, especially for grounding-sensitive queries. We propose Reroute, a training-free plug-in that replaces removal with recoverable routing. At each routing stage, selected vision tokens pass through decoder blocks, while deferred tokens bypass the stage and re-enter the candidate pool at the next routing decision. Reroute reuses existing attention-score ranking rules and stage-wise schedules, preserving the theoretical TFLOPs and KV-cache budget class of the pruning method it augments. Across FastV, PDrop, and Nüwa variants on LLaVA-1.5 and Qwen backbones, reroute improves grounding under aggressive token reduction while maintaining general VQA performance. These results suggest that VLM token reduction should not be viewed only as irreversible pruning, but also as recoverable routing. The code can be found here: https://github.com/elmma/mllm-reroute/