ChatPaper.aiChatPaper

Weniger sehen, richtig sehen: Bidirektionale Wahrnehmungsformung für multimodales Denken

See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

December 26, 2025
papers.authors: Shuoshuo Zhang, Yizhen Zhang, Jingjing Fu, Lei Song, Jiang Bian, Yujiu Yang, Rui Wang
cs.AI

papers.abstract

Große visuell-sprachliche Modelle (VLMs) profitieren oft von Zwischenstufen visueller Hinweise, die entweder über externe Werkzeuge eingebracht oder als latente visuelle Token während des Schlussfolgerns generiert werden. Diese Mechanismen übersehen jedoch nach wie vor feinkörnige visuelle Evidenz (z.B. Polylinien in Diagrammen), generalisieren schlecht über Domänen hinweg und verursachen hohe Inferenzkosten. In diesem Artikel schlagen wir die bidirektionale perzeptive Formung (BiPS) vor, die fragengesteuerte maskierte Ansichten in bidirektionale Signale umwandelt, die anzeigen, wohin zu blicken ist, und so die Wahrnehmung während des Trainings formen. BiPS wendet zunächst eine KL-Konsistenzbedingung zwischen dem Originalbild und einer evidenzerhaltenden Ansicht an, die nur fragerelevante Regionen beibehält, um eine grobe aber vollständige Abdeckung der unterstützenden Pixel zu fördern. Anschließend wird eine KL-Separationsbedingung zwischen dem Original und einer evidenzentfernenden Ansicht angewendet, bei der kritische Pixel maskiert werden, sodass das Bild die ursprüngliche Antwort nicht mehr stützt. Dies unterbindet textbasierte Abkürzungen (d.h. das Beantworten ausschließlich aus Text) und erzwingt feinkörnige visuelle Abhängigkeit. Über acht Benchmarks hinweg steigert BiPS Qwen2.5-VL-7B im Durchschnitt um 8,2 % und zeigt eine starke domänenübergreifende Generalisierung auf ungesehene Datensätze und Bildtypen.
English
Large vision-language models (VLMs) often benefit from intermediate visual cues, either injected via external tools or generated as latent visual tokens during reasoning, but these mechanisms still overlook fine-grained visual evidence (e.g., polylines in charts), generalize poorly across domains, and incur high inference-time cost. In this paper, we propose Bi-directional Perceptual Shaping (BiPS), which transforms question-conditioned masked views into bidirectional where-to-look signals that shape perception during training. BiPS first applies a KL-consistency constraint between the original image and an evidence-preserving view that keeps only question-relevant regions, encouraging coarse but complete coverage of supporting pixels. It then applies a KL-separation constraint between the original and an evidence-ablated view where critical pixels are masked so the image no longer supports the original answer, discouraging text-only shortcuts (i.e., answering from text alone) and enforcing fine-grained visual reliance. Across eight benchmarks, BiPS boosts Qwen2.5-VL-7B by 8.2% on average and shows strong out-of-domain generalization to unseen datasets and image types.
PDF91December 30, 2025