ChatPaper.aiChatPaper

ビジュアル専門家とのドラフト作成と洗練

Draft and Refine with Visual Experts

November 14, 2025
著者: Sungheon Jeong, Ryozo Masukawa, Jihong Park, Sanggeon Yun, Wenjun Huang, Hanning Chen, Mahdi Imani, Mohsen Imani
cs.AI

要旨

近年の大規模視覚言語モデル(LVLM)は強力なマルチモーダル推論能力を示す一方で、視覚的証拠よりも言語的な事前知識に過度に依存するため、事実に基づかない虚偽の応答(ハルシネーション)を生成することが多い。この問題は、推論過程においてモデルが実際にどれだけ視覚情報を利用しているかを定量的に測定する手法の欠如を浮き彫りにしている。本研究では、質問条件付き利用度指標によって駆動されるエージェントフレームワーク「Draft and Refine(DnR)」を提案する。この指標は、まず質問に特化した手がかりを局在化するためのクエリ条件付き関連性マップを構築し、関連性誘導確率的マスキングを通じて視覚的証拠への依存度を測定することで、モデルの視覚情報依存度を定量化する。この指標に導かれて、DnRエージェントは外部の視覚専門家からのターゲットフィードバックを用いて初期草案を洗練させる。各専門家の出力(バウンディングボックスやマスクなど)は画像上に視覚的手がかりとして描画され、利用度が最大となる応答を選択するためにモデルが再クエリされる。このプロセスにより、再学習やアーキテクチャ変更なしで視覚的接地が強化される。VQAおよび画像キャプショニングベンチマークでの実験により、精度の一貫した向上とハルシネーションの低減が実証され、視覚利用度の測定が、より解釈可能で証拠駆動型のマルチモーダルエージェントシステムへの原理的な道筋を提供することを示す。
English
While recent Large Vision-Language Models (LVLMs) exhibit strong multimodal reasoning abilities, they often produce ungrounded or hallucinated responses because they rely too heavily on linguistic priors instead of visual evidence. This limitation highlights the absence of a quantitative measure of how much these models actually use visual information during reasoning. We propose Draft and Refine (DnR), an agent framework driven by a question-conditioned utilization metric. The metric quantifies the model's reliance on visual evidence by first constructing a query-conditioned relevance map to localize question-specific cues and then measuring dependence through relevance-guided probabilistic masking. Guided by this metric, the DnR agent refines its initial draft using targeted feedback from external visual experts. Each expert's output (such as boxes or masks) is rendered as visual cues on the image, and the model is re-queried to select the response that yields the largest improvement in utilization. This process strengthens visual grounding without retraining or architectural changes. Experiments across VQA and captioning benchmarks show consistent accuracy gains and reduced hallucination, demonstrating that measuring visual utilization provides a principled path toward more interpretable and evidence-driven multimodal agent systems.
PDF22December 1, 2025