ChatPaper.aiChatPaper

시각 전문가와 함께 초안 작성 및 다듬기

Draft and Refine with Visual Experts

November 14, 2025
저자: Sungheon Jeong, Ryozo Masukawa, Jihong Park, Sanggeon Yun, Wenjun Huang, Hanning Chen, Mahdi Imani, Mohsen Imani
cs.AI

초록

최근 대규모 시각-언어 모델(LVLM)은 강력한 다중모달 추론 능력을 보여주지만, 시각적 증거보다 언어적 사전 지식에 지나치게 의존함으로써 근거가 부족하거나 허구적인 응답을 생성하는 경우가 많습니다. 이러한 한계는 이러한 모델들이 추론 과정에서 실제로 시각 정보를 얼마나 활용하는지에 대한 정량적 측정이 부재함을 보여줍니다. 본 연구에서는 질문 조건부 활용 지표(question-conditioned utilization metric)로 구동되는 에이전트 프레임워크인 Draft and Refine(DnR)을 제안합니다. 이 지표는 질문 특정 단서를 지역화하기 위해 쿼리 조건부 관련성 맵을 먼저 구성한 다음, 관련성 기반 확률적 마스킹(relevance-guided probabilistic masking)을 통해 의존도를 측정함으로써 모델의 시각적 증거 의존성을 정량화합니다. 이 지표의指引을 받아 DnR 에이전트는 외부 시각 전문가로부터의 표적화된 피드백을 사용하여 초기 초안을 정제합니다. 각 전문가의 출력(예: 박스 또는 마스크)은 이미지에 시각적 단서로 렌더링되며, 모델은 활용도에서 가장 큰 개선을 보이는 응답을 선택하도록 재질의됩니다. 이 과정은 재학습이나 구조 변경 없이 시각적 근거 강화를 가능하게 합니다. VQA 및 캡션 생성 벤치마크에서의 실험은 일관된 정확도 향상과 환각 현상 감소를 보여주며, 시각적 활용도를 측정하는 것이 더 해석 가능하고 증거 기반의 다중모달 에이전트 시스템을 위한 원칙적인 경로를 제공함을 입증합니다.
English
While recent Large Vision-Language Models (LVLMs) exhibit strong multimodal reasoning abilities, they often produce ungrounded or hallucinated responses because they rely too heavily on linguistic priors instead of visual evidence. This limitation highlights the absence of a quantitative measure of how much these models actually use visual information during reasoning. We propose Draft and Refine (DnR), an agent framework driven by a question-conditioned utilization metric. The metric quantifies the model's reliance on visual evidence by first constructing a query-conditioned relevance map to localize question-specific cues and then measuring dependence through relevance-guided probabilistic masking. Guided by this metric, the DnR agent refines its initial draft using targeted feedback from external visual experts. Each expert's output (such as boxes or masks) is rendered as visual cues on the image, and the model is re-queried to select the response that yields the largest improvement in utilization. This process strengthens visual grounding without retraining or architectural changes. Experiments across VQA and captioning benchmarks show consistent accuracy gains and reduced hallucination, demonstrating that measuring visual utilization provides a principled path toward more interpretable and evidence-driven multimodal agent systems.
PDF22December 1, 2025