Verificador Visual de Hechos: Habilitando la Generación de Subtítulos Detallados de Alta Fidelidad
Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation
April 30, 2024
Autores: Yunhao Ge, Xiaohui Zeng, Jacob Samuel Huffman, Tsung-Yi Lin, Ming-Yu Liu, Yin Cui
cs.AI
Resumen
Los métodos automáticos existentes para la generación de descripciones de contenido visual enfrentan desafíos como la falta de detalle, la alucinación de contenido y el seguimiento deficiente de instrucciones. En este trabajo, proponemos VisualFactChecker (VFC), una pipeline flexible y sin necesidad de entrenamiento que genera descripciones de alta fidelidad y detalladas tanto para imágenes 2D como para objetos 3D. VFC consta de tres pasos: 1) propuesta, donde modelos de generación de texto a partir de imágenes proponen múltiples descripciones iniciales; 2) verificación, donde un modelo de lenguaje grande (LLM) utiliza herramientas como detección de objetos y modelos de VQA para verificar la precisión de las descripciones propuestas; 3) generación de la descripción, donde un LLM produce la descripción final resumiendo las propuestas de descripción y los resultados de la verificación de hechos. En este paso, VFC puede generar descripciones de manera flexible en diversos estilos siguiendo instrucciones complejas. Realizamos evaluaciones exhaustivas de la generación de descripciones utilizando cuatro métricas: 1) CLIP-Score para la similitud entre imagen y texto; 2) CLIP-Image-Score para medir la similitud entre la imagen original y la imagen reconstruida generada por un modelo de texto a imagen utilizando la descripción; 3) un estudio humano en Amazon Mechanical Turk; 4) GPT-4V para una evaluación detallada. Los resultados de la evaluación muestran que VFC supera a los métodos de generación de descripciones de código abierto más avanzados para imágenes 2D en el conjunto de datos COCO y para activos 3D en el conjunto de datos Objaverse. Nuestro estudio demuestra que, al combinar modelos de código abierto en una pipeline, podemos alcanzar una capacidad de generación de descripciones comparable a la de modelos propietarios como GPT-4V, a pesar de ser más de 10 veces más pequeños en tamaño de modelo.
English
Existing automatic captioning methods for visual content face challenges such
as lack of detail, content hallucination, and poor instruction following. In
this work, we propose VisualFactChecker (VFC), a flexible training-free
pipeline that generates high-fidelity and detailed captions for both 2D images
and 3D objects. VFC consists of three steps: 1) proposal, where image-to-text
captioning models propose multiple initial captions; 2) verification, where a
large language model (LLM) utilizes tools such as object detection and VQA
models to fact-check proposed captions; 3) captioning, where an LLM generates
the final caption by summarizing caption proposals and the fact check
verification results. In this step, VFC can flexibly generate captions in
various styles following complex instructions. We conduct comprehensive
captioning evaluations using four metrics: 1) CLIP-Score for image-text
similarity; 2) CLIP-Image-Score for measuring the image-image similarity
between the original and the reconstructed image generated by a text-to-image
model using the caption. 3) human study on Amazon Mechanical Turk; 4) GPT-4V
for fine-grained evaluation. Evaluation results show that VFC outperforms
state-of-the-art open-sourced captioning methods for 2D images on the COCO
dataset and 3D assets on the Objaverse dataset. Our study demonstrates that by
combining open-source models into a pipeline, we can attain captioning
capability comparable to proprietary models such as GPT-4V, despite being over
10x smaller in model size.Summary
AI-Generated Summary