NoLan: Mitigación de Alucinaciones de Objetos en Modelos Grandes de Visión y Lenguaje mediante Supresión Dinámica de Priores Lingüísticos

Resumen

La alucinación de objetos es un problema crítico en los Grandes Modelos de Visión y Lenguaje (LVLM, por sus siglas en inglés), donde las salidas incluyen objetos que no aparecen en la imagen de entrada. De este fenómeno surge una pregunta natural: ¿Qué componente de la pipeline de un LVLM contribuye principalmente a las alucinaciones de objetos? ¿El codificador visual para percibir información visual, o el decodificador de lenguaje para generar respuestas de texto? En este trabajo, nos esforzamos por responder a esta pregunta mediante el diseño de un experimento sistemático para analizar los roles del codificador visual y del decodificador de lenguaje en la generación de alucinaciones. Nuestras observaciones revelan que las alucinaciones de objetos están predominantemente asociadas con los fuertes *priors* del decodificador de lenguaje. Basándonos en este hallazgo, proponemos un marco simple y que no requiere entrenamiento, el Decodificador de No-Alucinación de Lenguaje (NoLan), que refina la distribución de salida mediante la supresión dinámica de los *priors* lingüísticos, modulada en función de la diferencia en la distribución de salida entre las entradas multimodales y las entradas de solo texto. Los resultados experimentales demuestran que NoLan reduce eficazmente las alucinaciones de objetos en varios LVLM en diferentes tareas. Por ejemplo, NoLan logra mejoras sustanciales en POPE, aumentando la precisión de LLaVA-1.5 7B y Qwen-VL 7B hasta en 6.45 y 7.21 puntos, respectivamente. El código está disponible públicamente en: https://github.com/lingfengren/NoLan.

English

Object hallucination is a critical issue in Large Vision-Language Models (LVLMs), where outputs include objects that do not appear in the input image. A natural question arises from this phenomenon: Which component of the LVLM pipeline primarily contributes to object hallucinations? The vision encoder to perceive visual information, or the language decoder to generate text responses? In this work, we strive to answer this question through designing a systematic experiment to analyze the roles of the vision encoder and the language decoder in hallucination generation. Our observations reveal that object hallucinations are predominantly associated with the strong priors from the language decoder. Based on this finding, we propose a simple and training-free framework, No-Language-Hallucination Decoding, NoLan, which refines the output distribution by dynamically suppressing language priors, modulated based on the output distribution difference between multimodal and text-only inputs. Experimental results demonstrate that NoLan effectively reduces object hallucinations across various LVLMs on different tasks. For instance, NoLan achieves substantial improvements on POPE, enhancing the accuracy of LLaVA-1.5 7B and Qwen-VL 7B by up to 6.45 and 7.21, respectively. The code is publicly available at: https://github.com/lingfengren/NoLan.

NoLan: Mitigación de Alucinaciones de Objetos en Modelos Grandes de Visión y Lenguaje mediante Supresión Dinámica de Priores Lingüísticos

NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

Resumen

Support