Voir moins, voir juste : Façonnement perceptuel bidirectionnel pour le raisonnement multimodal
See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning
December 26, 2025
papers.authors: Shuoshuo Zhang, Yizhen Zhang, Jingjing Fu, Lei Song, Jiang Bian, Yujiu Yang, Rui Wang
cs.AI
papers.abstract
Les grands modèles vision-langage (VLM) bénéficient souvent d'indices visuels intermédiaires, injectés via des outils externes ou générés sous forme de tokens visuels latents lors du raisonnement. Cependant, ces mécanismes négligent encore les preuves visuelles fines (par exemple, les polylignes dans les graphiques), généralisent mal d'un domaine à l'autre et entraînent un coût élevé au moment de l'inférence. Dans cet article, nous proposons le Façonnage Perceptuel Bidirectionnel (BiPS), qui transforme des vues masquées conditionnées par la question en signaux bidirectionnels indiquant où regarder, afin de façonner la perception pendant l'entraînement. BiPS applique d'abord une contrainte de cohérence KL entre l'image originale et une vue préservant les preuves qui ne conserve que les régions pertinentes pour la question, encourageant ainsi une couverture grossière mais complète des pixels supports. Il applique ensuite une contrainte de séparation KL entre l'original et une vue où les preuves sont supprimées (les pixels critiques étant masqués de sorte que l'image ne supporte plus la réponse originale), décourageant ainsi les raccourcis basés uniquement sur le texte (c'est-à-dire répondre à partir du texte seul) et imposant une dépendance visuelle fine. Sur huit benchmarks, BiPS améliore Qwen2.5-VL-7B de 8,2 % en moyenne et démontre une forte généralisation hors domaine sur des ensembles de données et types d'images non vus.
English
Large vision-language models (VLMs) often benefit from intermediate visual cues, either injected via external tools or generated as latent visual tokens during reasoning, but these mechanisms still overlook fine-grained visual evidence (e.g., polylines in charts), generalize poorly across domains, and incur high inference-time cost. In this paper, we propose Bi-directional Perceptual Shaping (BiPS), which transforms question-conditioned masked views into bidirectional where-to-look signals that shape perception during training. BiPS first applies a KL-consistency constraint between the original image and an evidence-preserving view that keeps only question-relevant regions, encouraging coarse but complete coverage of supporting pixels. It then applies a KL-separation constraint between the original and an evidence-ablated view where critical pixels are masked so the image no longer supports the original answer, discouraging text-only shortcuts (i.e., answering from text alone) and enforcing fine-grained visual reliance. Across eight benchmarks, BiPS boosts Qwen2.5-VL-7B by 8.2% on average and shows strong out-of-domain generalization to unseen datasets and image types.