Ver Menos, Ver Melhor: Modelagem Perceptual Bidirecional para Raciocínio Multimodal

Resumo

Os grandes modelos visuo-linguísticos (VLMs) frequentemente beneficiam de pistas visuais intermediárias, seja através da injeção de ferramentas externas ou da geração de tokens visuais latentes durante o raciocínio. No entanto, estes mecanismos ainda negligenciam evidências visuais de granularidade fina (por exemplo, polilinhas em gráficos), generalizam mal entre domínios e incorrem em alto custo computacional durante a inferência. Neste artigo, propomos o *Bi-directional Perceptual Shaping* (BiPS), que transforma visualizações mascaradas condicionadas pela pergunta em sinais bidirecionais de "onde olhar", moldando a perceção durante o treino. O BiPS aplica primeiro uma restrição de consistência KL entre a imagem original e uma vista que preserva evidências, mantendo apenas as regiões relevantes para a pergunta, incentivando uma cobertura grosseira mas completa dos píxeis de suporte. Em seguida, aplica uma restrição de separação KL entre a imagem original e uma vista onde píxeis críticos são mascarados, de modo que a imagem já não suporta a resposta original, desencorajando atalhos baseados apenas em texto (isto é, responder apenas a partir do texto) e impondo uma dependência visual de granularidade fina. Em oito benchmarks, o BiPS aumenta o Qwen2.5-VL-7B em 8,2% em média e demonstra uma forte generalização fora do domínio para conjuntos de dados e tipos de imagem não vistos.

English

Large vision-language models (VLMs) often benefit from intermediate visual cues, either injected via external tools or generated as latent visual tokens during reasoning, but these mechanisms still overlook fine-grained visual evidence (e.g., polylines in charts), generalize poorly across domains, and incur high inference-time cost. In this paper, we propose Bi-directional Perceptual Shaping (BiPS), which transforms question-conditioned masked views into bidirectional where-to-look signals that shape perception during training. BiPS first applies a KL-consistency constraint between the original image and an evidence-preserving view that keeps only question-relevant regions, encouraging coarse but complete coverage of supporting pixels. It then applies a KL-separation constraint between the original and an evidence-ablated view where critical pixels are masked so the image no longer supports the original answer, discouraging text-only shortcuts (i.e., answering from text alone) and enforcing fine-grained visual reliance. Across eight benchmarks, BiPS boosts Qwen2.5-VL-7B by 8.2% on average and shows strong out-of-domain generalization to unseen datasets and image types.

Ver Menos, Ver Melhor: Modelagem Perceptual Bidirecional para Raciocínio Multimodal

See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

Resumo

Support