NoLan: Mitigando Alucinações de Objetos em Grandes Modelos de Visão e Linguagem por meio da Supressão Dinâmica de Priores Linguísticos

Resumo

A alucinação de objetos é um problema crítico nos Grandes Modelos de Visão e Linguagem (LVLMs), onde as saídas incluem objetos que não aparecem na imagem de entrada. Uma questão natural surge deste fenômeno: Qual componente do pipeline do LVLM contribui principalmente para as alucinações de objetos? O codificador de visão, para perceber informações visuais, ou o decodificador de linguagem, para gerar respostas textuais? Neste trabalho, nos esforçamos para responder a esta questão através do desenho de uma experiência sistemática para analisar os papéis do codificador de visão e do decodificador de linguagem na geração de alucinações. Nossas observações revelam que as alucinações de objetos estão predominantemente associadas aos fortes *priors* (prioridades) do decodificador de linguagem. Com base nesta descoberta, propomos uma estrutura simples e sem necessidade de treinamento, chamada Decodificação Sem Alucinação de Linguagem (No-Language-Hallucination Decoding), ou NoLan, que refina a distribuição de saída suprimindo dinamicamente os *priors* de linguagem, modulados com base na diferença da distribuição de saída entre entradas multimodais e apenas de texto. Resultados experimentais demonstram que o NoLan reduz efetivamente as alucinações de objetos em vários LVLMs em diferentes tarefas. Por exemplo, o NoLan alcança melhorias substanciais no POPE, aumentando a precisão do LLaVA-1.5 7B e do Qwen-VL 7B em até 6,45 e 7,21, respectivamente. O código está publicamente disponível em: https://github.com/lingfengren/NoLan.

English

Object hallucination is a critical issue in Large Vision-Language Models (LVLMs), where outputs include objects that do not appear in the input image. A natural question arises from this phenomenon: Which component of the LVLM pipeline primarily contributes to object hallucinations? The vision encoder to perceive visual information, or the language decoder to generate text responses? In this work, we strive to answer this question through designing a systematic experiment to analyze the roles of the vision encoder and the language decoder in hallucination generation. Our observations reveal that object hallucinations are predominantly associated with the strong priors from the language decoder. Based on this finding, we propose a simple and training-free framework, No-Language-Hallucination Decoding, NoLan, which refines the output distribution by dynamically suppressing language priors, modulated based on the output distribution difference between multimodal and text-only inputs. Experimental results demonstrate that NoLan effectively reduces object hallucinations across various LVLMs on different tasks. For instance, NoLan achieves substantial improvements on POPE, enhancing the accuracy of LLaVA-1.5 7B and Qwen-VL 7B by up to 6.45 and 7.21, respectively. The code is publicly available at: https://github.com/lingfengren/NoLan.