詳細を減らし、回答を向上させる:VQAのための劣化駆動型プロンプティング
Less Detail, Better Answers: Degradation-Driven Prompting for VQA
April 6, 2026
著者: Haoxuan Han, Weijie Wang, Zeyu Zhang, Yefei He, Bohan Zhuang
cs.AI
要旨
視覚言語モデル(VLM)の近年の進展は、視覚質問応答(VQA)の境界線を大きく押し広げてきた。しかし、高解像度の詳細情報は時にノイズとなり、幻覚や推論エラーを引き起こす場合がある。本論文では、画像の忠実度を戦略的に低下させることで、モデルが本質的な構造情報に注力するよう促し、VQAの性能を向上させる新規フレームワークであるDegradation-Driven Prompting(DDP)を提案する。我々はDDPを2つの異なるタスクで評価する。物理属性タスクは、人間の誤判断が生じやすい画像を対象とし、DDPは80%のダウンサンプリング、構造的可視化補助(白背景マスクと正投影線)、文脈内学習(ICL)を組み合わせて、モデルの焦点を較正する。知覚現象タスクは、視覚異常(VA)、色(CI)、運動(MI)、ゲシュタルト(GI)、幾何学(GSI)、錯視(VI)を含む、機械が影響を受けやすい様々な視覚的異常や錯覚に対処する。このタスクでは、DDPはタスク分類ステージと、ダウンサンプリングに加えてぼかしマスクやコントラスト強調などの特殊なツールを統合する。実験結果は、「より少ないことは、より豊かなことである」ことを示す:視覚入意図的に劣化させ、標的化された構造的プロンプトを提供することで、DDPはVLMが注意を散漫させる質感を回避し、困難な視覚ベンチマークにおいて優れた推論精度を達成することを可能にする。
English
Recent advancements in Vision-Language Models (VLMs) have significantly pushed the boundaries of Visual Question Answering (VQA).However,high-resolution details can sometimes become noise that leads to hallucinations or reasoning errors. In this paper,we propose Degradation-Driven Prompting (DDP), a novel framework that improves VQA performance by strategically reducing image fidelity to force models to focus on essential structural information. We evaluate DDP across two distinct tasks. Physical attributes targets images prone to human misjudgment, where DDP employs a combination of 80p downsampling, structural visual aids (white background masks and orthometric lines), and In-Context Learning (ICL) to calibrate the model's focus. Perceptual phenomena addresses various machine-susceptible visual anomalies and illusions, including Visual Anomaly (VA), Color (CI), Motion(MI),Gestalt (GI), Geometric (GSI), and Visual Illusions (VI).For this task, DDP integrates a task-classification stage with specialized tools such as blur masks and contrast enhancement alongside downsampling. Our experimental results demonstrate that less is more: by intentionally degrading visual inputs and providing targeted structural prompts, DDP enables VLMs to bypass distracting textures and achieve superior reasoning accuracy on challenging visual benchmarks.