Menos Detalles, Mejores Respuestas: Inducción Basada en Degradación para VQA

Resumen

Los recientes avances en Modelos de Visión y Lenguaje (VLM) han ampliado significativamente los límites de la Respuesta Visual a Preguntas (VQA). Sin embargo, los detalles de alta resolución a veces pueden convertirse en ruido que genera alucinaciones o errores de razonamiento. En este artículo, proponemos Degradation-Driven Prompting (DDP), un marco novedoso que mejora el rendimiento de VQA mediante la reducción estratégica de la fidelidad de la imagen para forzar a los modelos a centrarse en la información estructural esencial. Evaluamos DDP en dos tareas distintas. *Atributos físicos* se dirige a imágenes propensas a errores de juicio humano, donde DDP emplea una combinación de submuestreo al 80%, ayudas visuales estructurales (máscaras de fondo blanco y líneas ortométricas) y Aprendizaje en Contexto (ICL) para calibrar el enfoque del modelo. *Fenómenos perceptivos* aborda diversas anomalías e ilusiones visuales susceptibles de confundir a las máquinas, incluyendo Anomalías Visuales (VA), Ilusiones de Color (CI), Ilusiones de Movimiento (MI), Ilusiones Gestalt (GI), Ilusiones Geométricas (GSI) e Ilusiones Visuales (VI). Para esta tarea, DDP integra una etapa de clasificación de tareas con herramientas especializadas como máscaras de desenfoque y realce de contraste junto con el submuestreo. Nuestros resultados experimentales demuestran que menos es más: al degradar intencionadamente las entradas visuales y proporcionar indicaciones estructurales específicas, DDP permite a los VLM evitar texturas distractoras y lograr una precisión de razonamiento superior en puntos de referencia visuales desafiantes.

English

Recent advancements in Vision-Language Models (VLMs) have significantly pushed the boundaries of Visual Question Answering (VQA).However,high-resolution details can sometimes become noise that leads to hallucinations or reasoning errors. In this paper,we propose Degradation-Driven Prompting (DDP), a novel framework that improves VQA performance by strategically reducing image fidelity to force models to focus on essential structural information. We evaluate DDP across two distinct tasks. Physical attributes targets images prone to human misjudgment, where DDP employs a combination of 80p downsampling, structural visual aids (white background masks and orthometric lines), and In-Context Learning (ICL) to calibrate the model's focus. Perceptual phenomena addresses various machine-susceptible visual anomalies and illusions, including Visual Anomaly (VA), Color (CI), Motion(MI),Gestalt (GI), Geometric (GSI), and Visual Illusions (VI).For this task, DDP integrates a task-classification stage with specialized tools such as blur masks and contrast enhancement alongside downsampling. Our experimental results demonstrate that less is more: by intentionally degrading visual inputs and providing targeted structural prompts, DDP enables VLMs to bypass distracting textures and achieve superior reasoning accuracy on challenging visual benchmarks.

Menos Detalles, Mejores Respuestas: Inducción Basada en Degradación para VQA

Less Detail, Better Answers: Degradation-Driven Prompting for VQA

Resumen

Support