Redirige, no elimines: Enrutamiento Recuperable de Tokens Visuales para Modelos de Visión-Lenguaje

Resumen

Los modelos de visión y lenguaje (VLMs) proyectan imágenes en cientos o miles de tokens visuales, lo que encarece la inferencia del decodificador tanto en el cómputo de atención como en la memoria de caché KV. Los métodos existentes de reducción de tokens visuales siguen, en gran medida, un paradigma de clasificación y eliminación: puntúan los tokens visuales, conservan un subconjunto compacto y descartan permanentemente el resto. Mostramos que esta acción irreversible es frágil porque la importancia de los tokens visuales cambia a través de la profundidad del decodificador; tokens con baja puntuación en una etapa pueden volverse relevantes en capas posteriores, especialmente para consultas sensibles al anclaje. Proponemos Reroute, un complemento sin entrenamiento que reemplaza la eliminación por un enrutamiento recuperable. En cada etapa de enrutamiento, los tokens visuales seleccionados atraviesan los bloques del decodificador, mientras que los tokens diferidos omiten la etapa y reingresan al grupo de candidatos en la siguiente decisión de enrutamiento. Reroute reutiliza las reglas de puntuación de atención existentes y los cronogramas por etapa, preservando la clase teórica de TFLOPs y presupuesto de caché KV del método de poda que mejora. En variantes de FastV, PDrop y Nüwa sobre los backbones LLaVA-1.5 y Qwen, reroute mejora el anclaje bajo una reducción agresiva de tokens, manteniendo al mismo tiempo el rendimiento general en VQA. Estos resultados sugieren que la reducción de tokens visuales en VLMs no debe considerarse únicamente como una poda irreversible, sino también como un enrutamiento recuperable. El código puede encontrarse aquí: https://github.com/elmma/mllm-reroute/

English

Vision-language models (VLMs) project images into hundreds to thousands of visual tokens, making decoder inference expensive in both attention computation and KV-cache memory. Existing visual-token reduction methods largely follow a rank-and-remove paradigm: they score visual tokens, keep a compact subset, and permanently discard the rest. We show that this irreversible action is fragile because visual-token importance changes across decoder depth; tokens ranked low at one stage may become relevant in later layers, especially for grounding-sensitive queries. We propose Reroute, a training-free plug-in that replaces removal with recoverable routing. At each routing stage, selected vision tokens pass through decoder blocks, while deferred tokens bypass the stage and re-enter the candidate pool at the next routing decision. Reroute reuses existing attention-score ranking rules and stage-wise schedules, preserving the theoretical TFLOPs and KV-cache budget class of the pruning method it augments. Across FastV, PDrop, and Nüwa variants on LLaVA-1.5 and Qwen backbones, reroute improves grounding under aggressive token reduction while maintaining general VQA performance. These results suggest that VLM token reduction should not be viewed only as irreversible pruning, but also as recoverable routing. The code can be found here: https://github.com/elmma/mllm-reroute/