La déformation de jetons aide les MLLM à observer depuis des points de vue rapprochés

Résumé

La transformation de tokens, plutôt que de pixels, peut-elle aider les modèles de langage multimodaux (MLLM) à comprendre l'apparence d'une scène depuis un point de vue proche ? Bien que les MLLM obtiennent de bonnes performances en raisonnement visuel, ils restent fragiles face aux changements de point de vue, car la transformation pixel par pixel est très sensible aux petites erreurs de profondeur et introduit souvent des distorsions géométriques. En nous appuyant sur les théories de l'imagerie mentale qui postulent que les représentations structurelles au niveau des parties constituent la base de la transformation de perspective chez l'humain, nous examinons si les tokens d'image dans les MLLM basés sur ViT peuvent servir de substrat efficace pour les changements de point de vue. Nous comparons la transformation avant et arrière, et constatons que la transformation arrière de tokens, qui définit une grille dense sur la vue cible et récupère un token correspondant de la vue source pour chaque point de la grille, offre une plus grande stabilité et préserve mieux la cohérence sémantique lors des changements de point de vue. Les expériences sur notre benchmark ViewBench proposé démontrent que la transformation au niveau des tokens permet aux MLLM de raisonner de manière fiable à partir de points de vue proches, surpassant constamment toutes les méthodes de référence, y compris les approches de transformation pixel par pixel, les MLLM affinés spatialement et une méthode de transformation générative.

English

Can warping tokens, rather than pixels, help multimodal large language models (MLLMs) understand how a scene appears from a nearby viewpoint? While MLLMs perform well on visual reasoning, they remain fragile to viewpoint changes, as pixel-wise warping is highly sensitive to small depth errors and often introduces geometric distortions. Drawing on theories of mental imagery that posit part-level structural representations as the basis for human perspective transformation, we examine whether image tokens in ViT-based MLLMs serve as an effective substrate for viewpoint changes. We compare forward and backward warping, finding that backward token warping, which defines a dense grid on the target view and retrieves a corresponding source-view token for each grid point, achieves greater stability and better preserves semantic coherence under viewpoint shifts. Experiments on our proposed ViewBench benchmark demonstrate that token-level warping enables MLLMs to reason reliably from nearby viewpoints, consistently outperforming all baselines including pixel-wise warping approaches, spatially fine-tuned MLLMs, and a generative warping method.

La déformation de jetons aide les MLLM à observer depuis des points de vue rapprochés

Token Warping Helps MLLMs Look from Nearby Viewpoints

Résumé

Support