ChatPaper.aiChatPaper

Générer, mais Vérifier : Réduire les Hallucinations dans les Modèles Vision-Langue grâce à un Rééchantillonnage Rétrospectif

Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling

April 17, 2025
Auteurs: Tsung-Han Wu, Heekyung Lee, Jiaxin Ge, Joseph E. Gonzalez, Trevor Darrell, David M. Chan
cs.AI

Résumé

Les modèles vision-langage (VLMs) excellent dans la compréhension visuelle mais souffrent souvent d'hallucinations visuelles, où ils génèrent des descriptions d'objets, d'actions ou de concepts inexistants, posant des risques importants dans les applications critiques pour la sécurité. Les méthodes existantes d'atténuation des hallucinations suivent généralement l'un des deux paradigmes : l'ajustement de la génération, qui modifie le comportement de décodage pour aligner le texte sur les entrées visuelles, et la vérification a posteriori, où des modèles externes évaluent et corrigent les sorties. Bien qu'efficaces, les méthodes d'ajustement de la génération reposent souvent sur des heuristiques et manquent de mécanismes de correction, tandis que la vérification a posteriori est complexe, nécessitant généralement plusieurs modèles et ayant tendance à rejeter les sorties plutôt qu'à les affiner. Dans ce travail, nous présentons REVERSE, un cadre unifié qui intègre un entraînement conscient des hallucinations avec une auto-vérification en temps réel. En exploitant un nouvel ensemble de données de vérification des hallucinations contenant plus de 1,3 million d'échantillons semi-synthétiques, ainsi qu'une nouvelle technique de rééchantillonnage rétrospectif au moment de l'inférence, notre approche permet aux VLMs de détecter les hallucinations pendant la génération et de les réviser dynamiquement. Nos évaluations montrent que REVERSE atteint une réduction des hallucinations de pointe, surpassant les meilleures méthodes existantes jusqu'à 12 % sur CHAIR-MSCOCO et 28 % sur HaloQuest. Notre ensemble de données, modèle et code sont disponibles à l'adresse : https://reverse-vlm.github.io.
English
Vision-Language Models (VLMs) excel at visual understanding but often suffer from visual hallucinations, where they generate descriptions of nonexistent objects, actions, or concepts, posing significant risks in safety-critical applications. Existing hallucination mitigation methods typically follow one of two paradigms: generation adjustment, which modifies decoding behavior to align text with visual inputs, and post-hoc verification, where external models assess and correct outputs. While effective, generation adjustment methods often rely on heuristics and lack correction mechanisms, while post-hoc verification is complicated, typically requiring multiple models and tending to reject outputs rather than refine them. In this work, we introduce REVERSE, a unified framework that integrates hallucination-aware training with on-the-fly self-verification. By leveraging a new hallucination-verification dataset containing over 1.3M semi-synthetic samples, along with a novel inference-time retrospective resampling technique, our approach enables VLMs to both detect hallucinations during generation and dynamically revise those hallucinations. Our evaluations show that REVERSE achieves state-of-the-art hallucination reduction, outperforming the best existing methods by up to 12% on CHAIR-MSCOCO and 28% on HaloQuest. Our dataset, model, and code are available at: https://reverse-vlm.github.io.

Summary

AI-Generated Summary

PDF392April 18, 2025