Il Warping dei Token Aiuta i MLLM a Osservare da Punti di Vista Vicini

Abstract

La deformazione a livello di token, anziché di pixel, può aiutare i modelli linguistici multimodali di grandi dimensioni (MLLM) a comprendere come una scena appare da un punto di vista ravvicinato? Sebbene gli MLLM ottengano buone prestazioni nel ragionamento visivo, rimangono fragili rispetto ai cambiamenti di punto di vista, poiché la deformazione pixel per pixel è altamente sensibile a piccoli errori di profondità e spesso introduce distorsioni geometriche. Ispirandoci alle teorie sull'immaginazione mentale che ipotizzano rappresentazioni strutturali a livello di parti come base per la trasformazione prospettica umana, esaminiamo se i token immagine negli MLLM basati su ViT costituiscano un substrato efficace per i cambiamenti di punto di vista. Confrontiamo la deformazione in avanti e quella all'indietro, rilevando che la deformazione all'indietro dei token, che definisce una griglia densa sulla vista target e recupera un token corrispondente della vista sorgente per ogni punto della griglia, garantisce una maggiore stabilità e preserva meglio la coerenza semantica durante gli spostamenti del punto di vista. Esperimenti sul nostro benchmark proposto, ViewBench, dimostrano che la deformazione a livello di token consente agli MLLM di ragionare in modo affidabile da punti di vista vicini, superando costantemente tutte le baseline, inclusi gli approcci di deformazione pixel per pixel, MLLM ottimizzati spazialmente e un metodo di deformazione generativo.

English

Can warping tokens, rather than pixels, help multimodal large language models (MLLMs) understand how a scene appears from a nearby viewpoint? While MLLMs perform well on visual reasoning, they remain fragile to viewpoint changes, as pixel-wise warping is highly sensitive to small depth errors and often introduces geometric distortions. Drawing on theories of mental imagery that posit part-level structural representations as the basis for human perspective transformation, we examine whether image tokens in ViT-based MLLMs serve as an effective substrate for viewpoint changes. We compare forward and backward warping, finding that backward token warping, which defines a dense grid on the target view and retrieves a corresponding source-view token for each grid point, achieves greater stability and better preserves semantic coherence under viewpoint shifts. Experiments on our proposed ViewBench benchmark demonstrate that token-level warping enables MLLMs to reason reliably from nearby viewpoints, consistently outperforming all baselines including pixel-wise warping approaches, spatially fine-tuned MLLMs, and a generative warping method.

Il Warping dei Token Aiuta i MLLM a Osservare da Punti di Vista Vicini

Token Warping Helps MLLMs Look from Nearby Viewpoints

Abstract

Support