ChatPaper.aiChatPaper

Ontwerp en verfijn met visuele experts

Draft and Refine with Visual Experts

November 14, 2025
Auteurs: Sungheon Jeong, Ryozo Masukawa, Jihong Park, Sanggeon Yun, Wenjun Huang, Hanning Chen, Mahdi Imani, Mohsen Imani
cs.AI

Samenvatting

Hoewel recente grote visueel-taalmodelen (LVLMs) sterke multimodale redeneervermogen vertonen, produceren ze vaak ongefundeerde of gehallucineerde antwoorden omdat ze te sterk leunen op linguïstische voorkennis in plaats van visueel bewijs. Deze beperking onderstreept de afwezigheid van een kwantitatieve maatstaf voor hoeveel deze modellen daadwerkelijk visuele informatie gebruiken tijdens het redeneren. Wij stellen Draft and Refine (DnR) voor, een agentframework aangedreven door een vraag-gestuurde gebruiksmeter. De meter kwantificeert de afhankelijkheid van het model van visueel bewijs door eerst een vraag-gestuurde relevantiekaart te construeren om vraag-specifieke aanwijzingen te lokaliseren en vervolgens de afhankelijkheid te meten via relevantie-gestuurd probabilistisch maskeren. Geleid door deze meter verfijnt de DnR-agent zijn initiële concept met gerichte feedback van externe visuele experts. De output van elke expert (zoals vakjes of maskers) wordt weergegeven als visuele aanwijzingen op de afbeelding, en het model wordt opnieuw bevraagd om het antwoord te selecteren dat de grootste verbetering in gebruik oplevert. Dit proces versterkt de visuele verankering zonder hertraining of architectuurwijzigingen. Experimenten op VQA- en beeldbeschrijvingsbenchmarks tonen consistente nauwkeurigheidswinst en verminderde hallucinatie, wat aantoont dat het meten van visueel gebruik een principieel pad biedt naar meer interpreteerbare en op bewijs gebaseerde multimodale agentsystemen.
English
While recent Large Vision-Language Models (LVLMs) exhibit strong multimodal reasoning abilities, they often produce ungrounded or hallucinated responses because they rely too heavily on linguistic priors instead of visual evidence. This limitation highlights the absence of a quantitative measure of how much these models actually use visual information during reasoning. We propose Draft and Refine (DnR), an agent framework driven by a question-conditioned utilization metric. The metric quantifies the model's reliance on visual evidence by first constructing a query-conditioned relevance map to localize question-specific cues and then measuring dependence through relevance-guided probabilistic masking. Guided by this metric, the DnR agent refines its initial draft using targeted feedback from external visual experts. Each expert's output (such as boxes or masks) is rendered as visual cues on the image, and the model is re-queried to select the response that yields the largest improvement in utilization. This process strengthens visual grounding without retraining or architectural changes. Experiments across VQA and captioning benchmarks show consistent accuracy gains and reduced hallucination, demonstrating that measuring visual utilization provides a principled path toward more interpretable and evidence-driven multimodal agent systems.
PDF22December 1, 2025