Weniger Details, bessere Antworten: Abbaugetriebene Aufforderung für VQA

Zusammenfassung

Jüngste Fortschritte bei Vision-Language-Modellen (VLMs) haben die Grenzen des visuellen Frage-Antwort-Systems (Visual Question Answering, VQA) erheblich erweitert. Allerdings können hochauflösende Details manchmal zu Rauschen führen, das Halluzinationen oder Denkfehler verursacht. In diesem Artikel schlagen wir Degradation-Driven Prompting (DDP) vor, ein neuartiges Framework, das die VQA-Leistung verbessert, indem es die Bildqualität strategisch reduziert, um Modelle zu zwingen, sich auf wesentliche Strukturinformationen zu konzentrieren. Wir evaluieren DDP in zwei verschiedenen Aufgabenbereichen. Bei physischen Eigenschaften, die anfällig für menschliche Fehleinschätzungen sind, setzt DDP eine Kombination aus 80p-Herunterskalierung, strukturellen visuellen Hilfsmitteln (weiße Hintergrundmasken und orthometrische Linien) und In-Context Learning (ICL) ein, um den Fokus des Modells zu kalibrieren. Wahrnehmungsphänomene behandeln verschiedene, für Maschinen anfällige visuelle Anomalien und Illusionen, einschließlich visueller Anomalien (VA), Farbillusionen (CI), Bewegungsillusionen (MI), Gestaltphänomenen (GI), geometrischen Täuschungen (GSI) und visuellen Illusionen (VI). Für diese Aufgabe integriert DDP eine Aufgabenklassifizierungsstufe mit spezialisierten Werkzeugen wie Unschärfemasken und Kontrastverstärkung neben der Herunterskalierung. Unsere experimentellen Ergebnisse demonstrieren, dass weniger mehr ist: Durch gezielte Verschlechterung der visuellen Eingaben und gezielte strukturelle Prompts ermöglicht es DDP VLMs, ablenkende Texturen zu umgehen und eine überlegene Reasoning-Genauigkeit auf anspruchsvollen visuellen Benchmarks zu erreichen.

English

Recent advancements in Vision-Language Models (VLMs) have significantly pushed the boundaries of Visual Question Answering (VQA).However,high-resolution details can sometimes become noise that leads to hallucinations or reasoning errors. In this paper,we propose Degradation-Driven Prompting (DDP), a novel framework that improves VQA performance by strategically reducing image fidelity to force models to focus on essential structural information. We evaluate DDP across two distinct tasks. Physical attributes targets images prone to human misjudgment, where DDP employs a combination of 80p downsampling, structural visual aids (white background masks and orthometric lines), and In-Context Learning (ICL) to calibrate the model's focus. Perceptual phenomena addresses various machine-susceptible visual anomalies and illusions, including Visual Anomaly (VA), Color (CI), Motion(MI),Gestalt (GI), Geometric (GSI), and Visual Illusions (VI).For this task, DDP integrates a task-classification stage with specialized tools such as blur masks and contrast enhancement alongside downsampling. Our experimental results demonstrate that less is more: by intentionally degrading visual inputs and providing targeted structural prompts, DDP enables VLMs to bypass distracting textures and achieve superior reasoning accuracy on challenging visual benchmarks.

Weniger Details, bessere Antworten: Abbaugetriebene Aufforderung für VQA

Less Detail, Better Answers: Degradation-Driven Prompting for VQA

Zusammenfassung

Support