Generar, pero Verificar: Reduciendo Alucinaciones en Modelos de Visión-Lenguaje con Remuestreo Retrospectivo

Resumen

Los Modelos de Visión-Lenguaje (VLMs) sobresalen en la comprensión visual, pero a menudo sufren de alucinaciones visuales, donde generan descripciones de objetos, acciones o conceptos inexistentes, lo que plantea riesgos significativos en aplicaciones críticas para la seguridad. Los métodos existentes para mitigar las alucinaciones suelen seguir uno de dos paradigmas: ajuste de generación, que modifica el comportamiento de decodificación para alinear el texto con las entradas visuales, y verificación posterior, donde modelos externos evalúan y corrigen las salidas. Aunque efectivos, los métodos de ajuste de generación a menudo dependen de heurísticas y carecen de mecanismos de corrección, mientras que la verificación posterior es complicada, generalmente requiere múltiples modelos y tiende a rechazar las salidas en lugar de refinarlas. En este trabajo, presentamos REVERSE, un marco unificado que integra entrenamiento consciente de alucinaciones con autoverificación en tiempo real. Al aprovechar un nuevo conjunto de datos de verificación de alucinaciones que contiene más de 1.3 millones de muestras semi-sintéticas, junto con una novedosa técnica de remuestreo retrospectivo en tiempo de inferencia, nuestro enfoque permite a los VLMs detectar alucinaciones durante la generación y revisarlas dinámicamente. Nuestras evaluaciones muestran que REVERSE logra una reducción de alucinaciones de vanguardia, superando a los mejores métodos existentes en hasta un 12% en CHAIR-MSCOCO y un 28% en HaloQuest. Nuestro conjunto de datos, modelo y código están disponibles en: https://reverse-vlm.github.io.

English

Vision-Language Models (VLMs) excel at visual understanding but often suffer from visual hallucinations, where they generate descriptions of nonexistent objects, actions, or concepts, posing significant risks in safety-critical applications. Existing hallucination mitigation methods typically follow one of two paradigms: generation adjustment, which modifies decoding behavior to align text with visual inputs, and post-hoc verification, where external models assess and correct outputs. While effective, generation adjustment methods often rely on heuristics and lack correction mechanisms, while post-hoc verification is complicated, typically requiring multiple models and tending to reject outputs rather than refine them. In this work, we introduce REVERSE, a unified framework that integrates hallucination-aware training with on-the-fly self-verification. By leveraging a new hallucination-verification dataset containing over 1.3M semi-synthetic samples, along with a novel inference-time retrospective resampling technique, our approach enables VLMs to both detect hallucinations during generation and dynamically revise those hallucinations. Our evaluations show that REVERSE achieves state-of-the-art hallucination reduction, outperforming the best existing methods by up to 12% on CHAIR-MSCOCO and 28% on HaloQuest. Our dataset, model, and code are available at: https://reverse-vlm.github.io.

Generar, pero Verificar: Reduciendo Alucinaciones en Modelos de Visión-Lenguaje con Remuestreo Retrospectivo

Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling

Resumen

Support