더 적게 보고, 올바르게 보기: 다중 모달 추론을 위한 양방향 지각 형성
See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning
December 26, 2025
저자: Shuoshuo Zhang, Yizhen Zhang, Jingjing Fu, Lei Song, Jiang Bian, Yujiu Yang, Rui Wang
cs.AI
초록
대규모 시각-언어 모델(VLM)은 일반적으로 외부 도구를 통해 주입되거나 추론 과정에서 잠재 시각 토큰으로 생성되는 중간 시각 단서로부터 이점을 얻지만, 이러한 메커니즘은 여전히 세밀한 시각적 증거(예: 차트의 폴리라인)를 간과하고, 도메인 간 일반화가 취약하며, 높은 추론 시간 비용이 발생합니다. 본 논문에서는 질문 조건부 마스킹 뷰를 훈련 중 인지 형성에 영향을 미치는 양방향 어디를 볼지 신호로 변환하는 양방향 인지 형성(BiPS)을 제안합니다. BiPS는 먼저 원본 이미지와 질문 관련 영역만 유지하는 증거 보존 뷰 간에 KL 일관성 제약을 적용하여 지지 픽셀의 거칠지만 완전한 커버리지를 장려합니다. 그런 다음 원본 이미지와 중요한 픽셀이 마스킹되어 원래 답변을 더 이상 지지하지 않는 증거 제거 뷰 간에 KL 분리 제약을 적용하여 텍스트 전용 단축 경로(즉, 텍스트만으로 답변)를 억제하고 세밀한 시각 의존성을 강화합니다. 8개 벤치마크에서 BiPS는 Qwen2.5-VL-7B의 성능을 평균 8.2% 향상시켰으며, 보지 못한 데이터셋 및 이미지 유형에 대한 강력한 도메인 외 일반화를 보여주었습니다.
English
Large vision-language models (VLMs) often benefit from intermediate visual cues, either injected via external tools or generated as latent visual tokens during reasoning, but these mechanisms still overlook fine-grained visual evidence (e.g., polylines in charts), generalize poorly across domains, and incur high inference-time cost. In this paper, we propose Bi-directional Perceptual Shaping (BiPS), which transforms question-conditioned masked views into bidirectional where-to-look signals that shape perception during training. BiPS first applies a KL-consistency constraint between the original image and an evidence-preserving view that keeps only question-relevant regions, encouraging coarse but complete coverage of supporting pixels. It then applies a KL-separation constraint between the original and an evidence-ablated view where critical pixels are masked so the image no longer supports the original answer, discouraging text-only shortcuts (i.e., answering from text alone) and enforcing fine-grained visual reliance. Across eight benchmarks, BiPS boosts Qwen2.5-VL-7B by 8.2% on average and shows strong out-of-domain generalization to unseen datasets and image types.