ChatPaper.aiChatPaper

Minder zien, juist zien: bidirectionele perceptuele vormgeving voor multimodaal redeneren

See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

December 26, 2025
Auteurs: Shuoshuo Zhang, Yizhen Zhang, Jingjing Fu, Lei Song, Jiang Bian, Yujiu Yang, Rui Wang
cs.AI

Samenvatting

Grote vision-language modellen (VLMs) hebben vaak baat bij tussenliggende visuele aanwijzingen, die ofwel via externe tools worden ingevoerd of gegenereerd als latente visuele tokens tijdens het redeneren. Deze mechanismen negeren echter nog steeds fijnmazig visueel bewijs (zoals polylijnen in grafieken), generaliseren slecht over domeinen heen en veroorzaken hoge inferentiekosten. In dit artikel stellen we Bi-directionele Perceptuele Vorming (BiPS) voor, die vraag-geconditioneerde gemaskeerde beelden omzet in bidirectionele waar-te-kijken-signalen die de perceptie tijdens de training vormen. BiPS past eerst een KL-consistentiebeperking toe tussen de originele afbeelding en een bewijsbewarende weergave die alleen vraagrelevante regio's behoudt, wat een grove maar volledige dekking van ondersteunende pixels aanmoedigt. Vervolgens past het een KL-scheidingsbeperking toe tussen de originele afbeelding en een bewijs-verwijderde weergave waarin kritieke pixels zijn gemaskeerd, zodat de afbeelding het oorspronkelijke antwoord niet langer ondersteunt. Dit ontmoedigt tekst-only shortcuts (het antwoorden op basis van tekst alleen) en dwingt fijnmazige visuele afhankelijkheid af. Over acht benchmarks verbetert BiPS Qwen2.5-VL-7B gemiddeld met 8,2% en vertoont het sterke generalisatie buiten het domein naar onbeziene datasets en afbeeldingstypen.
English
Large vision-language models (VLMs) often benefit from intermediate visual cues, either injected via external tools or generated as latent visual tokens during reasoning, but these mechanisms still overlook fine-grained visual evidence (e.g., polylines in charts), generalize poorly across domains, and incur high inference-time cost. In this paper, we propose Bi-directional Perceptual Shaping (BiPS), which transforms question-conditioned masked views into bidirectional where-to-look signals that shape perception during training. BiPS first applies a KL-consistency constraint between the original image and an evidence-preserving view that keeps only question-relevant regions, encouraging coarse but complete coverage of supporting pixels. It then applies a KL-separation constraint between the original and an evidence-ablated view where critical pixels are masked so the image no longer supports the original answer, discouraging text-only shortcuts (i.e., answering from text alone) and enforcing fine-grained visual reliance. Across eight benchmarks, BiPS boosts Qwen2.5-VL-7B by 8.2% on average and shows strong out-of-domain generalization to unseen datasets and image types.
PDF91December 30, 2025