Token-Warping hilft MLLMs, aus nahen Blickwinkeln zu schauen

Zusammenfassung

Können verzerrte Token anstelle von Pixel multimodalen Großsprachmodellen (MLLMs) dabei helfen zu verstehen, wie eine Szene aus einer nahen Perspektive erscheint? Obwohl MLLMs bei visuellen Reasoning-Aufgaben gute Leistungen erbringen, bleiben sie anfällig für Blickwinkeländerungen, da pixelweise Verzerrung stark anfällig für kleine Tiefenfehler ist und häufig geometrische Verzerrungen verursacht. Gestützt auf Theorien der mentalen Bildvorstellung, die strukturelle Repräsentationen auf Teilebene als Grundlage für menschliche Perspektivtransformation postulieren, untersuchen wir, ob Bild-Token in ViT-basierten MLLMs ein effektives Substrat für Blickwinkeländerungen darstellen. Wir vergleichen Vorwärts- und Rückwärtsverzerrung und stellen fest, dass die Rückwärtsverzerrung von Token, die ein dichtes Gitter in der Zielansicht definiert und für jeden Gitterpunkt einen entsprechenden Token aus der Quellansicht abruft, eine größere Stabilität erreicht und die semantische Kohärenz bei Blickwinkelverschiebungen besser bewahrt. Experimente mit unserem vorgeschlagenen ViewBench-Benchmark zeigen, dass Verzerrung auf Token-Ebene MLLMs ermöglicht, zuverlässig aus nahen Blickwinkeln zu schlussfolgern, und dabei konsistent alle Baselines übertrifft, einschließlich pixelweiser Verzerrungsansätze, räumlich feinabgestimmter MLLMs und einer generativen Verzerrungsmethode.

English

Can warping tokens, rather than pixels, help multimodal large language models (MLLMs) understand how a scene appears from a nearby viewpoint? While MLLMs perform well on visual reasoning, they remain fragile to viewpoint changes, as pixel-wise warping is highly sensitive to small depth errors and often introduces geometric distortions. Drawing on theories of mental imagery that posit part-level structural representations as the basis for human perspective transformation, we examine whether image tokens in ViT-based MLLMs serve as an effective substrate for viewpoint changes. We compare forward and backward warping, finding that backward token warping, which defines a dense grid on the target view and retrieves a corresponding source-view token for each grid point, achieves greater stability and better preserves semantic coherence under viewpoint shifts. Experiments on our proposed ViewBench benchmark demonstrate that token-level warping enables MLLMs to reason reliably from nearby viewpoints, consistently outperforming all baselines including pixel-wise warping approaches, spatially fine-tuned MLLMs, and a generative warping method.

Token-Warping hilft MLLMs, aus nahen Blickwinkeln zu schauen

Token Warping Helps MLLMs Look from Nearby Viewpoints

Zusammenfassung

Support