Moins de détails, Meilleures Réponses : Incitation par Dégradation pour la VQA
Less Detail, Better Answers: Degradation-Driven Prompting for VQA
April 6, 2026
Auteurs: Haoxuan Han, Weijie Wang, Zeyu Zhang, Yefei He, Bohan Zhuang
cs.AI
Résumé
Les progrès récents des modèles vision-langage (VLM) ont considérablement repoussé les limites des systèmes de question-réponse visuelle (VQA). Cependant, les détails haute résolution peuvent parfois devenir un bruit induisant des hallucinations ou des erreurs de raisonnement. Dans cet article, nous proposons l'incitation pilotée par la dégradation (DDP), un nouveau cadre qui améliore les performances en VQA en réduisant stratégiquement la fidélité des images pour forcer les modèles à se concentrer sur l'information structurelle essentielle. Nous évaluons DDP sur deux tâches distinctes. Les attributs physiques ciblent les images sujettes aux erreurs de jugement humain, où DDP utilise une combinaison de sous-échantillonnage à 80 %, d'aides visuelles structurelles (masques à fond blanc et lignes orthométriques) et d'apprentissage en contexte (ICL) pour recalibrer le focus du modèle. Les phénomènes perceptuels abordent diverses anomalies visuelles et illusions auxquelles les machines sont sensibles, incluant les anomalies visuelles (VA), les illusions de couleur (CI), de mouvement (MI), Gestalt (GI), géométriques (GSI) et les illusions visuelles (VI). Pour cette tâche, DDP intègre une étape de classification des tâches avec des outils spécialisés tels que des masques de flou et l'amélioration du contraste, conjointement au sous-échantillonnage. Nos résultats expérimentaux démontrent que moins est plus : en dégradant intentionnellement les entrées visuelles et en fournissant des incitations structurelles ciblées, DDP permet aux VLM de contourner les textures distractives et d'atteindre une précision de raisonnement supérieure sur des benchmarks visuels exigeants.
English
Recent advancements in Vision-Language Models (VLMs) have significantly pushed the boundaries of Visual Question Answering (VQA).However,high-resolution details can sometimes become noise that leads to hallucinations or reasoning errors. In this paper,we propose Degradation-Driven Prompting (DDP), a novel framework that improves VQA performance by strategically reducing image fidelity to force models to focus on essential structural information. We evaluate DDP across two distinct tasks. Physical attributes targets images prone to human misjudgment, where DDP employs a combination of 80p downsampling, structural visual aids (white background masks and orthometric lines), and In-Context Learning (ICL) to calibrate the model's focus. Perceptual phenomena addresses various machine-susceptible visual anomalies and illusions, including Visual Anomaly (VA), Color (CI), Motion(MI),Gestalt (GI), Geometric (GSI), and Visual Illusions (VI).For this task, DDP integrates a task-classification stage with specialized tools such as blur masks and contrast enhancement alongside downsampling. Our experimental results demonstrate that less is more: by intentionally degrading visual inputs and providing targeted structural prompts, DDP enables VLMs to bypass distracting textures and achieve superior reasoning accuracy on challenging visual benchmarks.