Elaborar e Refinar com Especialistas Visuais

Resumo

Embora os modelos visuais-linguísticos de grande porte (LVLMs) recentes exibam fortes capacidades de raciocínio multimodal, eles frequentemente produzem respostas infundadas ou alucinadas porque dependem excessivamente de prioridades linguísticas em vez de evidências visuais. Essa limitação destaca a ausência de uma medida quantitativa de quanto esses modelos realmente usam informações visuais durante o raciocínio. Propomos o Draft and Refine (DnR), uma arquitetura de agente orientada por uma métrica de utilização condicionada à pergunta. A métrica quantifica a dependência do modelo em evidências visuais primeiro construindo um mapa de relevância condicionado à consulta para localizar pistas específicas da pergunta e, em seguida, medindo a dependência por meio de mascaramento probabilístico guiado por relevância. Orientado por essa métrica, o agente DnR refina seu rascunho inicial usando feedback direcionado de especialistas visuais externos. A saída de cada especialista (como caixas delimitadoras ou máscaras) é renderizada como pistas visuais na imagem, e o modelo é reconsultado para selecionar a resposta que produz o maior ganho na utilização. Esse processo fortalece o embasamento visual sem necessidade de retreinamento ou alterações arquiteturais. Experimentos em benchmarks de VQA e legendagem mostram ganhos consistentes de precisão e redução de alucinações, demonstrando que medir a utilização visual fornece um caminho fundamentado para sistemas de agentes multimodais mais interpretáveis e baseados em evidências.

English

While recent Large Vision-Language Models (LVLMs) exhibit strong multimodal reasoning abilities, they often produce ungrounded or hallucinated responses because they rely too heavily on linguistic priors instead of visual evidence. This limitation highlights the absence of a quantitative measure of how much these models actually use visual information during reasoning. We propose Draft and Refine (DnR), an agent framework driven by a question-conditioned utilization metric. The metric quantifies the model's reliance on visual evidence by first constructing a query-conditioned relevance map to localize question-specific cues and then measuring dependence through relevance-guided probabilistic masking. Guided by this metric, the DnR agent refines its initial draft using targeted feedback from external visual experts. Each expert's output (such as boxes or masks) is rendered as visual cues on the image, and the model is re-queried to select the response that yields the largest improvement in utilization. This process strengthens visual grounding without retraining or architectural changes. Experiments across VQA and captioning benchmarks show consistent accuracy gains and reduced hallucination, demonstrating that measuring visual utilization provides a principled path toward more interpretable and evidence-driven multimodal agent systems.

Elaborar e Refinar com Especialistas Visuais

Draft and Refine with Visual Experts

Resumo

Support