Meno Dettagli, Risposte Migliori: Prompting Guidato dalla Degradazione per VQA

Abstract

I recenti progressi nei Modelli Visione-Linguaggio (VLM) hanno significativamente spinto in avanti i limiti del Visual Question Answering (VQA). Tuttavia, i dettagli ad alta risoluzione possono talvolta diventare rumore che porta ad allucinazioni o errori di ragionamento. In questo articolo, proponiamo il *Degradation-Driven Prompting* (DDP), un nuovo framework che migliora le prestazioni del VQA riducendo strategicamente la fedeltà dell'immagine per costringere i modelli a concentrarsi sulle informazioni strutturali essenziali. Valutiamo il DDP su due compiti distinti. *Attributi fisici* riguarda immagini soggette a giudizi errati umani, dove il DDP impiega una combinazione di downsampling all'80p, aiuti visivi strutturali (maschere con sfondo bianco e linee ortometriche) e In-Context Learning (ICL) per calibrare il focus del modello. *Fenomeni percettivi* affronta varie anomalie visive e illusioni a cui le macchine sono suscettibili, incluse Anomalie Visive (VA), Illusioni di Colore (CI), Illusioni di Movimento (MI), Illusioni Gestalt (GI), Illusioni Geometriche (GSI) e Illusioni Visive (VI). Per questo compito, il DDP integra una fase di classificazione del task con strumenti specializzati come maschere di sfocatura e miglioramento del contrasto insieme al downsampling. I nostri risultati sperimentali dimostrano che *less is more*: degradando intenzionalmente gli input visivi e fornendo prompt strutturali mirati, il DDP consente ai VLM di bypassare le texture distraenti e ottenere una precisione di ragionamento superiore su benchmark visivi complessi.

English

Recent advancements in Vision-Language Models (VLMs) have significantly pushed the boundaries of Visual Question Answering (VQA).However,high-resolution details can sometimes become noise that leads to hallucinations or reasoning errors. In this paper,we propose Degradation-Driven Prompting (DDP), a novel framework that improves VQA performance by strategically reducing image fidelity to force models to focus on essential structural information. We evaluate DDP across two distinct tasks. Physical attributes targets images prone to human misjudgment, where DDP employs a combination of 80p downsampling, structural visual aids (white background masks and orthometric lines), and In-Context Learning (ICL) to calibrate the model's focus. Perceptual phenomena addresses various machine-susceptible visual anomalies and illusions, including Visual Anomaly (VA), Color (CI), Motion(MI),Gestalt (GI), Geometric (GSI), and Visual Illusions (VI).For this task, DDP integrates a task-classification stage with specialized tools such as blur masks and contrast enhancement alongside downsampling. Our experimental results demonstrate that less is more: by intentionally degrading visual inputs and providing targeted structural prompts, DDP enables VLMs to bypass distracting textures and achieve superior reasoning accuracy on challenging visual benchmarks.

Meno Dettagli, Risposte Migliori: Prompting Guidato dalla Degradazione per VQA

Less Detail, Better Answers: Degradation-Driven Prompting for VQA

Abstract

Support