La Adaptación de Tokens Ayuda a los MLLM a Observar desde Perspectivas Cercanas

Resumen

¿Puede la deformación de tokens, en lugar de píxeles, ayudar a los modelos de lenguaje multimodal (MLLM) a comprender cómo se ve una escena desde un punto de vista cercano? Si bien los MLLM tienen un buen desempeño en el razonamiento visual, siguen siendo frágiles ante cambios de perspectiva, ya que la deformación a nivel de píxeles es altamente sensible a pequeños errores de profundidad y a menudo introduce distorsiones geométricas. Basándonos en teorías de la imaginería mental que postulan las representaciones estructurales a nivel de partes como base para la transformación de perspectiva humana, examinamos si los tokens de imagen en los MLLM basados en ViT sirven como un sustrato efectivo para cambios de punto de vista. Comparamos la deformación directa e inversa de tokens, encontrando que la deformación inversa de tokens, que define una cuadrícula densa en la vista objetivo y recupera un token correspondiente de la vista origen para cada punto de la cuadrícula, logra una mayor estabilidad y preserva mejor la coherencia semántica bajo cambios de perspectiva. Los experimentos en nuestro benchmark propuesto, ViewBench, demuestran que la deformación a nivel de token permite a los MLLM razonar de manera confiable desde puntos de vista cercanos, superando consistentemente a todos los métodos de referencia, incluidos los enfoques de deformación de píxeles, los MLLM ajustados espacialmente y un método de deformación generativo.

English

Can warping tokens, rather than pixels, help multimodal large language models (MLLMs) understand how a scene appears from a nearby viewpoint? While MLLMs perform well on visual reasoning, they remain fragile to viewpoint changes, as pixel-wise warping is highly sensitive to small depth errors and often introduces geometric distortions. Drawing on theories of mental imagery that posit part-level structural representations as the basis for human perspective transformation, we examine whether image tokens in ViT-based MLLMs serve as an effective substrate for viewpoint changes. We compare forward and backward warping, finding that backward token warping, which defines a dense grid on the target view and retrieves a corresponding source-view token for each grid point, achieves greater stability and better preserves semantic coherence under viewpoint shifts. Experiments on our proposed ViewBench benchmark demonstrate that token-level warping enables MLLMs to reason reliably from nearby viewpoints, consistently outperforming all baselines including pixel-wise warping approaches, spatially fine-tuned MLLMs, and a generative warping method.

La Adaptación de Tokens Ayuda a los MLLM a Observar desde Perspectivas Cercanas

Token Warping Helps MLLMs Look from Nearby Viewpoints

Resumen

Support