Interprétation et Édition des Représentations Vision-Texte pour Atténuer les Hallucinations
Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations
October 3, 2024
Auteurs: Nick Jiang, Anish Kachinthaya, Suzie Petryk, Yossi Gandelsman
cs.AI
Résumé
Nous étudions les représentations internes des modèles vision-langage (VLM) pour résoudre les hallucinations, un défi persistant malgré les progrès en termes de taille et d'entraînement des modèles. Nous projetons les représentations internes d'images des VLM sur leur vocabulaire linguistique et observons des probabilités de sortie plus confiantes pour les objets réels que pour les objets hallucinés. Nous utilisons en outre ces probabilités de sortie pour localiser spatialement les objets réels. En nous appuyant sur cette approche, nous introduisons un algorithme d'effacement de connaissances qui élimine les hallucinations en orthogonalisant linéairement les caractéristiques de l'image par rapport aux caractéristiques des objets hallucinés. Nous montrons que des modifications ciblées des représentations latentes d'un modèle peuvent réduire les hallucinations jusqu'à 25,7% sur l'ensemble de données COCO2014 tout en préservant les performances. Nos résultats montrent comment une compréhension plus approfondie des représentations latentes des VLM peut améliorer la fiabilité et permettre de nouvelles capacités, telles que la segmentation sans apprentissage préalable.
English
We investigate the internal representations of vision-language models (VLMs)
to address hallucinations, a persistent challenge despite advances in model
size and training. We project VLMs' internal image representations to their
language vocabulary and observe more confident output probabilities on real
objects than hallucinated objects. We additionally use these output
probabilities to spatially localize real objects. Building on this approach, we
introduce a knowledge erasure algorithm that removes hallucinations by linearly
orthogonalizing image features with respect to hallucinated object features. We
show that targeted edits to a model's latent representations can reduce
hallucinations by up to 25.7% on the COCO2014 dataset while preserving
performance. Our findings demonstrate how a deeper understanding of VLMs'
latent representations can enhance reliability and enable novel capabilities,
such as zero-shot segmentation.Summary
AI-Generated Summary