Меньше деталей — лучше ответы: деградационно-ориентированные подсказки для VQA

Аннотация

Последние достижения в области визуально-языковых моделей (VLM) значительно расширили границы задачи визуального ответа на вопросы (VQA). Однако высокодетализированная информация иногда может становиться шумом, приводящим к галлюцинациям или ошибкам в рассуждениях. В данной статье мы предлагаем Degradation-Driven Prompting (DDP) — новую архитектуру, которая повышает производительность VQA за счет стратегического снижения четкости изображения, чтобы заставить модели концентрироваться на существенной структурной информации. Мы оцениваем DDP в рамках двух различных задач. Задача *физических атрибутов* ориентирована на изображения, склонные к ошибочной человеческой интерпретации, где DDP использует комбинацию 80%-ного уменьшения разрешения, структурных визуальных подсказок (маски на белом фоне и ортометрические линии) и обучения в контексте (ICL) для калибровки фокуса модели. Задача *перцептивных феноменов* рассматривает различные визуальные аномалии и иллюзии, к которым восприимчивы машины, включая визуальные аномалии (VA), цветовые (CI), движенческие (MI), гештальт- (GI), геометрические (GSI) иллюзии, а также классические зрительные иллюзии (VI). Для этой задачи DDP интегрирует этап классификации задач со специализированными инструментами, такими как маски размытия и усиление контрастности, наряду с уменьшением разрешения. Наши экспериментальные результаты демонстрируют, что «меньше — значит лучше»: целенаправленно ухудшая визуальный ввод и предоставляя целевые структурные подсказки, DDP позволяет VLM игнорировать отвлекающие текстуры и достигать превосходной точности рассуждений на сложных визуальных тестах.

English

Recent advancements in Vision-Language Models (VLMs) have significantly pushed the boundaries of Visual Question Answering (VQA).However,high-resolution details can sometimes become noise that leads to hallucinations or reasoning errors. In this paper,we propose Degradation-Driven Prompting (DDP), a novel framework that improves VQA performance by strategically reducing image fidelity to force models to focus on essential structural information. We evaluate DDP across two distinct tasks. Physical attributes targets images prone to human misjudgment, where DDP employs a combination of 80p downsampling, structural visual aids (white background masks and orthometric lines), and In-Context Learning (ICL) to calibrate the model's focus. Perceptual phenomena addresses various machine-susceptible visual anomalies and illusions, including Visual Anomaly (VA), Color (CI), Motion(MI),Gestalt (GI), Geometric (GSI), and Visual Illusions (VI).For this task, DDP integrates a task-classification stage with specialized tools such as blur masks and contrast enhancement alongside downsampling. Our experimental results demonstrate that less is more: by intentionally degrading visual inputs and providing targeted structural prompts, DDP enables VLMs to bypass distracting textures and achieve superior reasoning accuracy on challenging visual benchmarks.

Меньше деталей — лучше ответы: деградационно-ориентированные подсказки для VQA

Less Detail, Better Answers: Degradation-Driven Prompting for VQA

Аннотация

Support