ChatPaper.aiChatPaper

Ébauche et affinage avec des experts visuels

Draft and Refine with Visual Experts

November 14, 2025
papers.authors: Sungheon Jeong, Ryozo Masukawa, Jihong Park, Sanggeon Yun, Wenjun Huang, Hanning Chen, Mahdi Imani, Mohsen Imani
cs.AI

papers.abstract

Bien que les modèles de vision et langage à grande échelle (LVLM) récents présentent de solides capacités de raisonnement multimodal, ils produisent souvent des réponses non fondées ou hallucinées car ils s’appuient trop sur des préjugés linguistiques plutôt que sur des preuves visuelles. Cette limitation souligne l’absence d’une mesure quantitative permettant d’évaluer dans quelle mesure ces modèles utilisent réellement l’information visuelle lors du raisonnement. Nous proposons Draft and Refine (DnR), un cadre d’agent piloté par une métrique d’utilisation conditionnée par la question. Cette métrique quantifie la dépendance du modèle aux preuves visuelles en construisant d’abord une carte de pertinence conditionnée par la requête pour localiser les indices spécifiques à la question, puis en mesurant la dépendance via un masquage probabiliste guidé par la pertinence. Guidé par cette métrique, l’agent DnR affine son brouillon initial en utilisant des retours ciblés d’experts visuels externes. La sortie de chaque expert (telle que des boîtes ou des masques) est rendue sous forme d’indices visuels sur l’image, et le modèle est réinterrogé pour sélectionner la réponse qui génère la plus grande amélioration de l’utilisation. Ce processus renforce l’ancrage visuel sans réentraînement ni modification de l’architecture. Les expériences menées sur des benchmarks de VQA et de description d’images montrent des gains de précision constants et une réduction des hallucinations, démontrant que la mesure de l’utilisation visuelle offre une voie rigoureuse vers des systèmes d’agents multimodaux plus interprétables et fondés sur des preuves.
English
While recent Large Vision-Language Models (LVLMs) exhibit strong multimodal reasoning abilities, they often produce ungrounded or hallucinated responses because they rely too heavily on linguistic priors instead of visual evidence. This limitation highlights the absence of a quantitative measure of how much these models actually use visual information during reasoning. We propose Draft and Refine (DnR), an agent framework driven by a question-conditioned utilization metric. The metric quantifies the model's reliance on visual evidence by first constructing a query-conditioned relevance map to localize question-specific cues and then measuring dependence through relevance-guided probabilistic masking. Guided by this metric, the DnR agent refines its initial draft using targeted feedback from external visual experts. Each expert's output (such as boxes or masks) is rendered as visual cues on the image, and the model is re-queried to select the response that yields the largest improvement in utilization. This process strengthens visual grounding without retraining or architectural changes. Experiments across VQA and captioning benchmarks show consistent accuracy gains and reduced hallucination, demonstrating that measuring visual utilization provides a principled path toward more interpretable and evidence-driven multimodal agent systems.
PDF22December 1, 2025