NoLan : Atténuation des hallucinations d'objets dans les grands modèles vision-langage via la suppression dynamique des a priori linguistiques

Résumé

L'hallucination d'objets est un problème critique dans les grands modèles vision-langage (LVLM), où les sorties incluent des objets qui n'apparaissent pas dans l'image d'entrée. Une question naturelle découle de ce phénomène : quel composant du pipeline des LVLM contribue principalement aux hallucinations d'objets ? L'encodeur visuel pour percevoir l'information visuelle, ou le décodeur linguistique pour générer les réponses textuelles ? Dans ce travail, nous nous efforçons de répondre à cette question en concevant une expérience systématique pour analyser les rôles de l'encodeur visuel et du décodeur linguistique dans la génération des hallucinations. Nos observations révèlent que les hallucinations d'objets sont principalement associées aux fortes préconceptions du décodeur linguistique. Sur la base de cette découverte, nous proposons un cadre simple et sans apprentissage, le décodage sans hallucination linguistique (NoLan), qui affine la distribution de sortie en supprimant dynamiquement les préconceptions linguistiques, modulée en fonction de la différence de distribution de sortie entre les entrées multimodales et textuelles uniquement. Les résultats expérimentaux démontrent que NoLan réduit efficacement les hallucinations d'objets dans divers LVLM sur différentes tâches. Par exemple, NoLan réalise des améliorations substantielles sur POPE, augmentant la précision de LLaVA-1.5 7B et Qwen-VL 7B jusqu'à 6,45 et 7,21 respectivement. Le code est disponible publiquement à l'adresse : https://github.com/lingfengren/NoLan.

English

Object hallucination is a critical issue in Large Vision-Language Models (LVLMs), where outputs include objects that do not appear in the input image. A natural question arises from this phenomenon: Which component of the LVLM pipeline primarily contributes to object hallucinations? The vision encoder to perceive visual information, or the language decoder to generate text responses? In this work, we strive to answer this question through designing a systematic experiment to analyze the roles of the vision encoder and the language decoder in hallucination generation. Our observations reveal that object hallucinations are predominantly associated with the strong priors from the language decoder. Based on this finding, we propose a simple and training-free framework, No-Language-Hallucination Decoding, NoLan, which refines the output distribution by dynamically suppressing language priors, modulated based on the output distribution difference between multimodal and text-only inputs. Experimental results demonstrate that NoLan effectively reduces object hallucinations across various LVLMs on different tasks. For instance, NoLan achieves substantial improvements on POPE, enhancing the accuracy of LLaVA-1.5 7B and Qwen-VL 7B by up to 6.45 and 7.21, respectively. The code is publicly available at: https://github.com/lingfengren/NoLan.

NoLan : Atténuation des hallucinations d'objets dans les grands modèles vision-langage via la suppression dynamique des a priori linguistiques

NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

Résumé

Support