O Enrolamento de Tokens Auxilia os MLLMs a Observar a Partir de Pontos de Vista Próximos

Resumo

A deformação de tokens, em vez de pixels, pode ajudar os modelos de linguagem multimodal (MLLMs) a compreender como uma cena é vista de um ponto de vista próximo? Embora os MLLMs tenham bom desempenho no raciocínio visual, eles permanecem frágeis a mudanças de perspectiva, uma vez que a deformação ao nível de pixels é altamente sensível a pequenos erros de profundidade e frequentemente introduz distorções geométricas. Com base em teorias de imagética mental que postulam representações estruturais ao nível de partes como base para a transformação de perspectiva humana, investigamos se os tokens de imagem em MLLMs baseados em ViT servem como um substrato eficaz para mudanças de ponto de vista. Comparamos a deformação direta e a inversa, concluindo que a deformação inversa de tokens, que define uma grelha densa na vista de destino e recupera um token correspondente da vista de origem para cada ponto da grelha, alcança maior estabilidade e preserva melhor a coerência semântica sob mudanças de perspectiva. Experiências no nosso benchmark proposto, ViewBench, demonstram que a deformação ao nível de tokens permite que os MLLs raciocinem de forma confiável a partir de pontos de vista próximos, superando consistentemente todas as linhas de base, incluindo abordagens de deformação de pixels, MLLMs afinados espacialmente e um método de deformação generativo.

English

Can warping tokens, rather than pixels, help multimodal large language models (MLLMs) understand how a scene appears from a nearby viewpoint? While MLLMs perform well on visual reasoning, they remain fragile to viewpoint changes, as pixel-wise warping is highly sensitive to small depth errors and often introduces geometric distortions. Drawing on theories of mental imagery that posit part-level structural representations as the basis for human perspective transformation, we examine whether image tokens in ViT-based MLLMs serve as an effective substrate for viewpoint changes. We compare forward and backward warping, finding that backward token warping, which defines a dense grid on the target view and retrieves a corresponding source-view token for each grid point, achieves greater stability and better preserves semantic coherence under viewpoint shifts. Experiments on our proposed ViewBench benchmark demonstrate that token-level warping enables MLLMs to reason reliably from nearby viewpoints, consistently outperforming all baselines including pixel-wise warping approaches, spatially fine-tuned MLLMs, and a generative warping method.

O Enrolamento de Tokens Auxilia os MLLMs a Observar a Partir de Pontos de Vista Próximos

Token Warping Helps MLLMs Look from Nearby Viewpoints

Resumo

Support