Token Warping helpt MLLM's kijken vanuit nabije gezichtspunten

Samenvatting

Kunnen getransformeerde tokens, in plaats van pixels, multimodale grote taalmodellen (MLLM's) helpen begrijpen hoe een scène eruitziet vanuit een nabij gezichtspunt? Hoewel MLLM's goed presteren op visueel redeneren, blijven ze kwetsbaar voor veranderingen in gezichtspunt, omdat pixelgewijze transformatie zeer gevoelig is voor kleine dieptefouten en vaak geometrische vervormingen introduceert. Voortbordurend op theorieën over mentale beeldvorming die structurele representaties op deel-niveau poneren als basis voor menselijke perspectiefverandering, onderzoeken we of beeldtokens in ViT-gebaseerde MLLM's dienen als een effectief substraat voor gezichtspuntwijzigingen. We vergelijken voorwaartse en achterwaartse transformatie, en concluderen dat achterwaartse token-transformatie, waarbij een dicht rooster op de doelweergave wordt gedefinieerd en voor elk roosterpunt een corresponderende token uit de bronweergave wordt opgehaald, een grotere stabiliteit bereikt en de semantische samenhang beter behoudt bij gezichtspuntverschuivingen. Experimenten op onze voorgestelde ViewBench-benchmark tonen aan dat transformatie op tokenniveau MLLM's in staat stelt betrouwbaar te redeneren vanuit nabije gezichtspunten, waarbij ze consistent alle baseline-methoden overtreffen, inclusief pixelgewijze transformatiebenaderingen, ruimtelijk afgestemde MLLM's en een generatieve transformatiemethode.

English

Can warping tokens, rather than pixels, help multimodal large language models (MLLMs) understand how a scene appears from a nearby viewpoint? While MLLMs perform well on visual reasoning, they remain fragile to viewpoint changes, as pixel-wise warping is highly sensitive to small depth errors and often introduces geometric distortions. Drawing on theories of mental imagery that posit part-level structural representations as the basis for human perspective transformation, we examine whether image tokens in ViT-based MLLMs serve as an effective substrate for viewpoint changes. We compare forward and backward warping, finding that backward token warping, which defines a dense grid on the target view and retrieves a corresponding source-view token for each grid point, achieves greater stability and better preserves semantic coherence under viewpoint shifts. Experiments on our proposed ViewBench benchmark demonstrate that token-level warping enables MLLMs to reason reliably from nearby viewpoints, consistently outperforming all baselines including pixel-wise warping approaches, spatially fine-tuned MLLMs, and a generative warping method.

Token Warping helpt MLLM's kijken vanuit nabije gezichtspunten

Token Warping Helps MLLMs Look from Nearby Viewpoints

Samenvatting

Support