Umleiten, nicht Entfernen: Wiederherstellbares visuelles Token-Routing für Visuell-Sprach-Modelle

Zusammenfassung

Sprach-Bild-Modelle (VLMs) projizieren Bilder in Hunderte bis Tausende visuelle Tokens, was die Dekoder-Inferenz sowohl hinsichtlich der Aufmerksamkeitsberechnung als auch des KV-Cache-Speichers teuer macht. Bestehende Methoden zur Reduktion visueller Tokens folgen weitgehend einem Rangfolge-und-Entfernen-Paradigma: Sie bewerten visuelle Tokens, behalten eine kompakte Teilmenge und verwerfen die übrigen dauerhaft. Wir zeigen, dass diese irreversible Aktion anfällig ist, da die Bedeutung visueller Tokens mit der Tiefe des Dekoders variiert; Tokens, die in einer frühen Stufe niedrig eingestuft werden, können in späteren Schichten relevant werden, insbesondere für grounding-sensitive Abfragen. Wir schlagen Reroute vor, ein trainingsfreies Plug-in, das das Entfernen durch wiederherstellbares Routing ersetzt. In jeder Routing-Stufe durchlaufen ausgewählte visuelle Tokens die Dekoder-Blöcke, während zurückgestellte Tokens die Stufe umgehen und bei der nächsten Routing-Entscheidung wieder in den Kandidatenpool eintreten. Reroute verwendet bestehende Aufmerksamkeits-Score-Rangfolgeregeln und stufenweise Zeitpläne wieder, wobei die theoretische TFLOPs- und KV-Cache-Budget-Klasse der Pruning-Methode, die es ergänzt, erhalten bleibt. In FastV-, PDrop- und Nüwa-Varianten auf LLaVA-1.5- und Qwen-Backbones verbessert Reroute das Grounding bei aggressiver Token-Reduktion bei gleichbleibender allgemeiner VQA-Leistung. Diese Ergebnisse legen nahe, dass die Reduktion visueller Tokens in VLMs nicht nur als irreversibles Pruning, sondern auch als wiederherstellbares Routing betrachtet werden sollte. Der Code ist hier zu finden: https://github.com/elmma/mllm-reroute/

English

Vision-language models (VLMs) project images into hundreds to thousands of visual tokens, making decoder inference expensive in both attention computation and KV-cache memory. Existing visual-token reduction methods largely follow a rank-and-remove paradigm: they score visual tokens, keep a compact subset, and permanently discard the rest. We show that this irreversible action is fragile because visual-token importance changes across decoder depth; tokens ranked low at one stage may become relevant in later layers, especially for grounding-sensitive queries. We propose Reroute, a training-free plug-in that replaces removal with recoverable routing. At each routing stage, selected vision tokens pass through decoder blocks, while deferred tokens bypass the stage and re-enter the candidate pool at the next routing decision. Reroute reuses existing attention-score ranking rules and stage-wise schedules, preserving the theoretical TFLOPs and KV-cache budget class of the pruning method it augments. Across FastV, PDrop, and Nüwa variants on LLaVA-1.5 and Qwen backbones, reroute improves grounding under aggressive token reduction while maintaining general VQA performance. These results suggest that VLM token reduction should not be viewed only as irreversible pruning, but also as recoverable routing. The code can be found here: https://github.com/elmma/mllm-reroute/