ChatPaper.aiChatPaper

Ver menos, ver correctamente: moldeado perceptual bidireccional para el razonamiento multimodal

See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

December 26, 2025
Autores: Shuoshuo Zhang, Yizhen Zhang, Jingjing Fu, Lei Song, Jiang Bian, Yujiu Yang, Rui Wang
cs.AI

Resumen

Los grandes modelos de visión y lenguaje (VLM) a menudo se benefician de pistas visuales intermedias, ya sea inyectadas mediante herramientas externas o generadas como tokens visuales latentes durante el razonamiento. Sin embargo, estos mecanismos aún pasan por alto evidencia visual detallada (por ejemplo, polilíneas en gráficos), generalizan pobremente entre dominios e incurren en un alto costo computacional durante la inferencia. En este artículo, proponemos el Moldeado Perceptual Bidireccional (BiPS), que transforma vistas enmascaradas condicionadas por la pregunta en señales bidireccionales de dónde mirar que moldean la percepción durante el entrenamiento. BiPS aplica primero una restricción de consistencia KL entre la imagen original y una vista que preserva la evidencia (manteniendo solo las regiones relevantes para la pregunta), fomentando una cobertura gruesa pero completa de los píxeles de apoyo. Luego aplica una restricción de separación KL entre la imagen original y una vista con evidencia ablacionada (donde los píxeles críticos están enmascarados para que la imagen ya no respalde la respuesta original), disuadiendo los atajos basados únicamente en texto y reforzando la dependencia de detalles visuales finos. En ocho benchmarks, BiPS mejora a Qwen2.5-VL-7B en un 8.2% en promedio y muestra una fuerte generalización fuera de dominio hacia conjuntos de datos y tipos de imagen no vistos.
English
Large vision-language models (VLMs) often benefit from intermediate visual cues, either injected via external tools or generated as latent visual tokens during reasoning, but these mechanisms still overlook fine-grained visual evidence (e.g., polylines in charts), generalize poorly across domains, and incur high inference-time cost. In this paper, we propose Bi-directional Perceptual Shaping (BiPS), which transforms question-conditioned masked views into bidirectional where-to-look signals that shape perception during training. BiPS first applies a KL-consistency constraint between the original image and an evidence-preserving view that keeps only question-relevant regions, encouraging coarse but complete coverage of supporting pixels. It then applies a KL-separation constraint between the original and an evidence-ablated view where critical pixels are masked so the image no longer supports the original answer, discouraging text-only shortcuts (i.e., answering from text alone) and enforcing fine-grained visual reliance. Across eight benchmarks, BiPS boosts Qwen2.5-VL-7B by 8.2% on average and shows strong out-of-domain generalization to unseen datasets and image types.
PDF91December 30, 2025