Vedere Meno, Vedere Correttamente: Modellazione Percettiva Bidirezionale per il Ragionamento Multimodale

Abstract

I grandi modelli visione-linguaggio (VLM) spesso traggono vantaggio da segnali visivi intermedi, iniettati tramite strumenti esterni o generati come token visivi latenti durante il ragionamento, ma questi meccanismi continuano a trascurare l'evidenza visiva di grana fine (ad esempio, le polilinee nei grafici), generalizzano male tra diversi domini e comportano un costo computazionale elevato in fase di inferenza. In questo articolo, proponghiamo il Modellamento Percettivo Bidirezionale (BiPS), che trasforma viste mascherate condizionate alla domanda in segnali bidirezionali su dove guardare, modellando la percezione durante l'addestramento. BiPS applica prima un vincolo di consistenza KL tra l'immagine originale e una vista che preserva l'evidenza, mantenendo solo le regioni rilevanti per la domanda, incoraggiando una copertura approssimativa ma completa dei pixel di supporto. Successivamente, applica un vincolo di separazione KL tra l'originale e una vista in cui l'evidenza è stata rimossa, mascherando i pixel critici in modo che l'immagine non supporti più la risposta originale, scoraggiando così le scorciatoie basate solo sul testo (rispondere usando solo il testo) e imponendo una dipendenza visiva di grana fine. Su otto benchmark, BiPS migliora Qwen2.5-VL-7B dell'8.2% in media e mostra una forte generalizzazione fuori dominio su dataset e tipi di immagine non visti.

English

Large vision-language models (VLMs) often benefit from intermediate visual cues, either injected via external tools or generated as latent visual tokens during reasoning, but these mechanisms still overlook fine-grained visual evidence (e.g., polylines in charts), generalize poorly across domains, and incur high inference-time cost. In this paper, we propose Bi-directional Perceptual Shaping (BiPS), which transforms question-conditioned masked views into bidirectional where-to-look signals that shape perception during training. BiPS first applies a KL-consistency constraint between the original image and an evidence-preserving view that keeps only question-relevant regions, encouraging coarse but complete coverage of supporting pixels. It then applies a KL-separation constraint between the original and an evidence-ablated view where critical pixels are masked so the image no longer supports the original answer, discouraging text-only shortcuts (i.e., answering from text alone) and enforcing fine-grained visual reliance. Across eight benchmarks, BiPS boosts Qwen2.5-VL-7B by 8.2% on average and shows strong out-of-domain generalization to unseen datasets and image types.

Vedere Meno, Vedere Correttamente: Modellazione Percettiva Bidirezionale per il Ragionamento Multimodale

See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

Abstract

Support