### Bozza e Affina con Esperti Visivi
Draft and Refine with Visual Experts
November 14, 2025
Autori: Sungheon Jeong, Ryozo Masukawa, Jihong Park, Sanggeon Yun, Wenjun Huang, Hanning Chen, Mahdi Imani, Mohsen Imani
cs.AI
Abstract
Sebbene i recenti Large Vision-Language Models (LVLM) mostrino forti capacità di ragionamento multimodale, spesso producono risposte infondate o allucinate poiché si basano eccessivamente su prior linguistici anziché su evidenze visive. Questa limitazione evidenzia l'assenza di una misura quantitativa di quanto questi modelli utilizzino effettivamente le informazioni visive durante il ragionamento. Proponiamo Draft and Refine (DnR), un framework ad agente guidato da una metrica di utilizzo condizionata alla domanda. La metrica quantifica la dipendenza del modello dalle evidenze visive costruendo prima una mappa di rilevanza condizionata alla query per localizzare gli indizi specifici della domanda, per poi misurare la dipendenza attraverso un mascheramento probabilistico guidato dalla rilevanza. Guidato da questa metrica, l'agente DnR affina la sua bozza iniziale utilizzando feedback mirati da esperti visivi esterni. L'output di ogni esperto (come bounding box o maschere) viene renderizzato come indizi visivi sull'immagine, e il modello viene interrogato nuovamente per selezionare la risposta che produce il maggior miglioramento nell'utilizzo. Questo processo rafforza l'ancoraggio visivo senza necessità di riaddestramento o modifiche architetturali. Esperimenti su benchmark di VQA e captioning mostrano guadagni consistenti in accuratezza e una ridotta allucinazione, dimostrando che misurare l'utilizzo visivo fornisce un percorso metodologicamente solido verso sistemi ad agente multimodali più interpretabili e guidati dalle evidenze.
English
While recent Large Vision-Language Models (LVLMs) exhibit strong multimodal reasoning abilities, they often produce ungrounded or hallucinated responses because they rely too heavily on linguistic priors instead of visual evidence. This limitation highlights the absence of a quantitative measure of how much these models actually use visual information during reasoning. We propose Draft and Refine (DnR), an agent framework driven by a question-conditioned utilization metric. The metric quantifies the model's reliance on visual evidence by first constructing a query-conditioned relevance map to localize question-specific cues and then measuring dependence through relevance-guided probabilistic masking. Guided by this metric, the DnR agent refines its initial draft using targeted feedback from external visual experts. Each expert's output (such as boxes or masks) is rendered as visual cues on the image, and the model is re-queried to select the response that yields the largest improvement in utilization. This process strengthens visual grounding without retraining or architectural changes. Experiments across VQA and captioning benchmarks show consistent accuracy gains and reduced hallucination, demonstrating that measuring visual utilization provides a principled path toward more interpretable and evidence-driven multimodal agent systems.