Menos Detalhes, Melhores Respostas: Prompting Orientado pela Degradação para VQA

Resumo

Os recentes avanços nos Modelos de Visão e Linguagem (VLMs) têm expandido significativamente as fronteiras da Resposta a Perguntas Visuais (VQA). No entanto, detalhes de alta resolução podem, por vezes, tornar-se ruído que leva a alucinações ou erros de raciocínio. Neste artigo, propomos o *Prompting* Orientado pela Degradação (DDP), uma nova estrutura que melhora o desempenho da VQA ao reduzir estrategicamente a fidelidade da imagem para forçar os modelos a concentrarem-se em informações estruturais essenciais. Avaliamos o DDP em duas tarefas distintas. *Atributos físicos* tem como alvo imagens propensas a erros de julgamento humano, onde o DDP emprega uma combinação de redução de resolução para 80%, auxílios visuais estruturais (máscaras de fundo branco e linhas ortométricas) e Aprendizagem em Contexto (ICL) para calibrar o foco do modelo. *Fenómenos perceptivos* aborda várias anomalias e ilusões visuais às quais as máquinas são suscetíveis, incluindo Anomalia Visual (VA), Ilusão de Cor (CI), Ilusão de Movimento (MI), Ilusão de Gestalt (GI), Ilusão Geométrica (GSI) e Ilusões Visuais (VI). Para esta tarefa, o DDP integra uma fase de classificação de tarefas com ferramentas especializadas, como máscaras de desfoque e realce de contraste, juntamente com a redução de resolução. Os nossos resultados experimentais demonstram que *menos é mais*: ao degradar intencionalmente os inputs visuais e fornecer *prompts* estruturais direcionados, o DDP permite que os VLMs ignorem texturas distractoras e atinjam uma precisão de raciocínio superior em benchmarks visuais desafiadores.

English

Recent advancements in Vision-Language Models (VLMs) have significantly pushed the boundaries of Visual Question Answering (VQA).However,high-resolution details can sometimes become noise that leads to hallucinations or reasoning errors. In this paper,we propose Degradation-Driven Prompting (DDP), a novel framework that improves VQA performance by strategically reducing image fidelity to force models to focus on essential structural information. We evaluate DDP across two distinct tasks. Physical attributes targets images prone to human misjudgment, where DDP employs a combination of 80p downsampling, structural visual aids (white background masks and orthometric lines), and In-Context Learning (ICL) to calibrate the model's focus. Perceptual phenomena addresses various machine-susceptible visual anomalies and illusions, including Visual Anomaly (VA), Color (CI), Motion(MI),Gestalt (GI), Geometric (GSI), and Visual Illusions (VI).For this task, DDP integrates a task-classification stage with specialized tools such as blur masks and contrast enhancement alongside downsampling. Our experimental results demonstrate that less is more: by intentionally degrading visual inputs and providing targeted structural prompts, DDP enables VLMs to bypass distracting textures and achieve superior reasoning accuracy on challenging visual benchmarks.

Menos Detalhes, Melhores Respostas: Prompting Orientado pela Degradação para VQA

Less Detail, Better Answers: Degradation-Driven Prompting for VQA

Resumo

Support