ChatPaper.aiChatPaper

Разработка и доработка совместно с визуальными экспертами

Draft and Refine with Visual Experts

November 14, 2025
Авторы: Sungheon Jeong, Ryozo Masukawa, Jihong Park, Sanggeon Yun, Wenjun Huang, Hanning Chen, Mahdi Imani, Mohsen Imani
cs.AI

Аннотация

Хотя современные большие визуально-языковые модели (LVLM) демонстрируют мощные способности к мультимодальным рассуждениям, они часто выдают нефактические или галлюцинированные ответы, поскольку чрезмерно полагаются на лингвистические априорные представления, а не на визуальные свидетельства. Это ограничение подчеркивает отсутствие количественной меры того, насколько активно эти модели используют визуальную информацию в процессе reasoning. Мы предлагаем фреймворк Draft and Refine (DnR) — агентскую систему, управляемую метрикой использования, обусловленной вопросом. Данная метрика количественно оценивает зависимость модели от визуальных данных путем построения карты релевантности, обусловленной запросом, для локализации релевантных вопросу сигналов, а затем измеряет степень зависимости с помощью вероятностного маскирования, управляемого релевантностью. Руководствуясь этой метрикой, агент DnR уточняет первоначальный черновик ответа, используя целенаправленную обратную связь от внешних визуальных экспертов. Результат работы каждого эксперта (например, bounding boxes или маски) визуализируется в виде подсказок на изображении, после чего модель запрашивается повторно для выбора ответа, обеспечивающего наибольшее улучшение показателя использования. Этот процесс усиливает визуальную обоснованность без необходимости переобучения или изменения архитектуры. Эксперименты на бенчмарках VQA и captioning показывают стабильное повышение точности и сокращение галлюцинаций, демонстрируя, что измерение степени использования визуальной информации предоставляет принципиальный путь к созданию более интерпретируемых и основанных на доказательствах мультимодальных агентских систем.
English
While recent Large Vision-Language Models (LVLMs) exhibit strong multimodal reasoning abilities, they often produce ungrounded or hallucinated responses because they rely too heavily on linguistic priors instead of visual evidence. This limitation highlights the absence of a quantitative measure of how much these models actually use visual information during reasoning. We propose Draft and Refine (DnR), an agent framework driven by a question-conditioned utilization metric. The metric quantifies the model's reliance on visual evidence by first constructing a query-conditioned relevance map to localize question-specific cues and then measuring dependence through relevance-guided probabilistic masking. Guided by this metric, the DnR agent refines its initial draft using targeted feedback from external visual experts. Each expert's output (such as boxes or masks) is rendered as visual cues on the image, and the model is re-queried to select the response that yields the largest improvement in utilization. This process strengthens visual grounding without retraining or architectural changes. Experiments across VQA and captioning benchmarks show consistent accuracy gains and reduced hallucination, demonstrating that measuring visual utilization provides a principled path toward more interpretable and evidence-driven multimodal agent systems.
PDF22December 1, 2025