Entwurf und Verfeinerung mit visuellen Experten
Draft and Refine with Visual Experts
November 14, 2025
papers.authors: Sungheon Jeong, Ryozo Masukawa, Jihong Park, Sanggeon Yun, Wenjun Huang, Hanning Chen, Mahdi Imani, Mohsen Imani
cs.AI
papers.abstract
Während neuere Large Vision-Language Models (LVLMs) starke multimodale Fähigkeiten zeigen, erzeugen sie oft unbegründete oder halluzinierte Antworten, da sie sich zu stark auf linguistische A-priori-Informationen anstatt auf visuelle Evidenz stützen. Diese Einschränkung unterstreicht das Fehlen eines quantitativen Maßes dafür, wie viel diese Modelle tatsächlich visuelle Informationen während des Schlussfolgerns nutzen. Wir schlagen Draft and Refine (DnR) vor, ein Agenten-Framework, das von einer fragengesteuerten Nutzungsmetrik angetrieben wird. Die Metrik quantifiziert die Abhängigkeit des Modells von visuellen Beweisen, indem zunächst eine abfragebedingte Relevanzkarte zur Lokalisierung fragenspezifischer Hinweise erstellt und dann die Abhängigkeit durch relevanzgesteuerte probabilistische Maskierung gemessen wird. Gesteuert durch diese Metrik verfeinert der DnR-Agent seinen initialen Entwurf mittels gezieltem Feedback externer visueller Experten. Die Ausgabe jedes Experten (wie z.B. Bounding-Boxen oder Masken) wird als visuelle Hinweise auf dem Bild dargestellt, und das Modell wird erneut abgefragt, um die Antwort auszuwählen, die die größte Verbesserung der Nutzungsmetrik erzielt. Dieser Prozess stärkt die visuelle Verankerung ohne Neutraining oder Architekturanpassungen. Experimente mit VQA- und Bildbeschreibungs-Benchmarks zeigen konsistente Genauigkeitsgewinne und reduzierte Halluzinationen, was demonstriert, dass die Messung der visuellen Nutzung einen prinzipiellen Weg zu interpretierbareren und evidenzbasierten multimodalen Agentensystemen ebnet.
English
While recent Large Vision-Language Models (LVLMs) exhibit strong multimodal reasoning abilities, they often produce ungrounded or hallucinated responses because they rely too heavily on linguistic priors instead of visual evidence. This limitation highlights the absence of a quantitative measure of how much these models actually use visual information during reasoning. We propose Draft and Refine (DnR), an agent framework driven by a question-conditioned utilization metric. The metric quantifies the model's reliance on visual evidence by first constructing a query-conditioned relevance map to localize question-specific cues and then measuring dependence through relevance-guided probabilistic masking. Guided by this metric, the DnR agent refines its initial draft using targeted feedback from external visual experts. Each expert's output (such as boxes or masks) is rendered as visual cues on the image, and the model is re-queried to select the response that yields the largest improvement in utilization. This process strengthens visual grounding without retraining or architectural changes. Experiments across VQA and captioning benchmarks show consistent accuracy gains and reduced hallucination, demonstrating that measuring visual utilization provides a principled path toward more interpretable and evidence-driven multimodal agent systems.