Rediriger, ne pas supprimer : Routage récupérable des tokens visuels pour les modèles vision-langage

Résumé

Les modèles vision-langage (VLM) projettent des images en centaines ou milliers de jetons visuels, ce qui rend l'inférence du décodeur coûteuse tant en calcul d'attention qu'en mémoire cache KV. Les méthodes existantes de réduction des jetons visuels suivent largement un paradigme de classement et suppression : elles notent les jetons visuels, conservent un sous-ensemble compact et abandonnent définitivement le reste. Nous montrons que cette action irréversible est fragile car l'importance des jetons visuels varie selon la profondeur du décodeur ; des jetons faiblement classés à un stade peuvent devenir pertinents dans des couches ultérieures, en particulier pour les requêtes sensibles à l'ancrage. Nous proposons Reroute, un module enfichable sans entraînement qui remplace la suppression par un routage récupérable. À chaque étape de routage, les jetons visuels sélectionnés traversent les blocs du décodeur, tandis que les jetons différés contournent l'étape et réintègrent le pool de candidats à la prochaine décision de routage. Reroute réutilise les règles de classement des scores d'attention existantes et les programmations par étape, préservant la classe théorique de TFLOPs et de budget de cache KV de la méthode d'élagage qu'il augmente. Sur les variantes FastV, PDrop et Nüwa avec les backbones LLaVA-1.5 et Qwen, Reroute améliore l'ancrage sous une réduction agressive de jetons tout en maintenant la performance générale en VQA. Ces résultats suggèrent que la réduction des jetons visuels dans les VLM ne devrait pas être considérée uniquement comme un élagage irréversible, mais aussi comme un routage récupérable. Le code est disponible ici : https://github.com/elmma/mllm-reroute/

English

Vision-language models (VLMs) project images into hundreds to thousands of visual tokens, making decoder inference expensive in both attention computation and KV-cache memory. Existing visual-token reduction methods largely follow a rank-and-remove paradigm: they score visual tokens, keep a compact subset, and permanently discard the rest. We show that this irreversible action is fragile because visual-token importance changes across decoder depth; tokens ranked low at one stage may become relevant in later layers, especially for grounding-sensitive queries. We propose Reroute, a training-free plug-in that replaces removal with recoverable routing. At each routing stage, selected vision tokens pass through decoder blocks, while deferred tokens bypass the stage and re-enter the candidate pool at the next routing decision. Reroute reuses existing attention-score ranking rules and stage-wise schedules, preserving the theoretical TFLOPs and KV-cache budget class of the pruning method it augments. Across FastV, PDrop, and Nüwa variants on LLaVA-1.5 and Qwen backbones, reroute improves grounding under aggressive token reduction while maintaining general VQA performance. These results suggest that VLM token reduction should not be viewed only as irreversible pruning, but also as recoverable routing. The code can be found here: https://github.com/elmma/mllm-reroute/