Herrouteren, niet verwijderen: Herstelbare visuele tokenrouting voor visie-taalmodellen

Samenvatting

Visie-taalmodelen (VLMs) projecteren afbeeldingen in honderden tot duizenden visuele tokens, waardoor decoder-inferentie duur wordt, zowel qua aandachtberekening als KV-cachegeheugen. Bestaande methoden voor visuele tokenreductie volgen grotendeels een rangschik-en-verwijder paradigma: ze beoordelen visuele tokens, houden een compacte subset over en verwijderen de rest permanent. Wij tonen aan dat deze onomkeerbare handeling fragiel is omdat het belang van visuele tokens verandert naarmate de decoder dieper wordt; tokens die in een vroeg stadium laag worden gerangschikt, kunnen in latere lagen relevant worden, vooral voor grounding-gevoelige queries. Wij stellen Reroute voor, een trainingsvrije plug-in die verwijdering vervangt door herstelbare routering. In elke routeringsfase passeren geselecteerde visuele tokens decoderblokken, terwijl uitgestelde tokens de fase overslaan en bij de volgende routeringsbeslissing opnieuw in de kandidaatpool worden opgenomen. Reroute hergebruikt bestaande aandachtsscore-rangschikkingsregels en fasegewijze schema's, waardoor de theoretische TFLOPs- en KV-cachebudgetklasse van de snoeimethode die het uitbreidt, behouden blijft. Bij FastV-, PDrop- en Nüwa-varianten op LLaVA-1.5- en Qwen-backbones verbetert Reroute de grounding bij agressieve tokenreductie, terwijl de algemene VQA-prestaties behouden blijven. Deze resultaten suggereren dat VLM-tokenreductie niet alleen moet worden gezien als onomkeerbaar snoeien, maar ook als herstelbare routering. De code is te vinden op: https://github.com/elmma/mllm-reroute/

English

Vision-language models (VLMs) project images into hundreds to thousands of visual tokens, making decoder inference expensive in both attention computation and KV-cache memory. Existing visual-token reduction methods largely follow a rank-and-remove paradigm: they score visual tokens, keep a compact subset, and permanently discard the rest. We show that this irreversible action is fragile because visual-token importance changes across decoder depth; tokens ranked low at one stage may become relevant in later layers, especially for grounding-sensitive queries. We propose Reroute, a training-free plug-in that replaces removal with recoverable routing. At each routing stage, selected vision tokens pass through decoder blocks, while deferred tokens bypass the stage and re-enter the candidate pool at the next routing decision. Reroute reuses existing attention-score ranking rules and stage-wise schedules, preserving the theoretical TFLOPs and KV-cache budget class of the pruning method it augments. Across FastV, PDrop, and Nüwa variants on LLaVA-1.5 and Qwen backbones, reroute improves grounding under aggressive token reduction while maintaining general VQA performance. These results suggest that VLM token reduction should not be viewed only as irreversible pruning, but also as recoverable routing. The code can be found here: https://github.com/elmma/mllm-reroute/