ChatPaper.aiChatPaper

Redactar y Refinar con Expertos Visuales

Draft and Refine with Visual Experts

November 14, 2025
Autores: Sungheon Jeong, Ryozo Masukawa, Jihong Park, Sanggeon Yun, Wenjun Huang, Hanning Chen, Mahdi Imani, Mohsen Imani
cs.AI

Resumen

Si bien los modelos grandes de visión y lenguaje (LVLM) recientes exhiben sólidas capacidades de razonamiento multimodal, a menudo producen respuestas infundadas o alucinadas porque dependen excesivamente de priores lingüísticos en lugar de evidencia visual. Esta limitación subraya la ausencia de una medida cuantitativa de cuánto utilizan realmente estos modelos la información visual durante el razonamiento. Proponemos Draft and Refine (DnR), un marco de agente impulsado por una métrica de utilización condicionada por la pregunta. La métrica cuantifica la dependencia del modelo en la evidencia visual construyendo primero un mapa de relevancia condicionado por la consulta para localizar indicios específicos de la pregunta y luego midiendo la dependencia mediante un enmascaramiento probabilístico guiado por la relevancia. Guiado por esta métrica, el agente DnR refina su borrador inicial utilizando retroalimentación específica de expertos visuales externos. La salida de cada experto (como cuadros delimitadores o máscaras) se representa como indicios visuales en la imagen, y se vuelve a consultar al modelo para que seleccione la respuesta que produzca la mayor mejora en la utilización. Este proceso fortalece el grounding visual sin necesidad de reentrenamiento o cambios arquitectónicos. Los experimentos en benchmarks de VQA y generación de descripciones muestran ganancias consistentes en precisión y una reducción de las alucinaciones, demostrando que medir la utilización visual proporciona un camino fundamentado hacia sistemas de agentes multimodales más interpretables y basados en evidencia.
English
While recent Large Vision-Language Models (LVLMs) exhibit strong multimodal reasoning abilities, they often produce ungrounded or hallucinated responses because they rely too heavily on linguistic priors instead of visual evidence. This limitation highlights the absence of a quantitative measure of how much these models actually use visual information during reasoning. We propose Draft and Refine (DnR), an agent framework driven by a question-conditioned utilization metric. The metric quantifies the model's reliance on visual evidence by first constructing a query-conditioned relevance map to localize question-specific cues and then measuring dependence through relevance-guided probabilistic masking. Guided by this metric, the DnR agent refines its initial draft using targeted feedback from external visual experts. Each expert's output (such as boxes or masks) is rendered as visual cues on the image, and the model is re-queried to select the response that yields the largest improvement in utilization. This process strengthens visual grounding without retraining or architectural changes. Experiments across VQA and captioning benchmarks show consistent accuracy gains and reduced hallucination, demonstrating that measuring visual utilization provides a principled path toward more interpretable and evidence-driven multimodal agent systems.
PDF22December 1, 2025