Visual Fact Checker: Abilitazione della Generazione di Didascalie Dettagliate ad Alta Fedeltà
Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation
April 30, 2024
Autori: Yunhao Ge, Xiaohui Zeng, Jacob Samuel Huffman, Tsung-Yi Lin, Ming-Yu Liu, Yin Cui
cs.AI
Abstract
I metodi esistenti per la generazione automatica di didascalie per contenuti visivi affrontano sfide come la mancanza di dettagli, l'allucinazione di contenuti e una scarsa aderenza alle istruzioni. In questo lavoro, proponiamo VisualFactChecker (VFC), una pipeline flessibile e senza necessità di addestramento che genera didascalie ad alta fedeltà e dettagliate sia per immagini 2D che per oggetti 3D. VFC si compone di tre passaggi: 1) proposta, in cui modelli di captioning da immagine a testo generano multiple didascalie iniziali; 2) verifica, in cui un modello linguistico di grandi dimensioni (LLM) utilizza strumenti come modelli di rilevamento oggetti e VQA per controllare i fatti delle didascalie proposte; 3) captioning, in cui un LLM genera la didascalia finale sintetizzando le proposte di didascalie e i risultati della verifica dei fatti. In questa fase, VFC può generare flessibilmente didascalie in vari stili seguendo istruzioni complesse. Eseguiamo valutazioni complete del captioning utilizzando quattro metriche: 1) CLIP-Score per la similarità immagine-testo; 2) CLIP-Image-Score per misurare la similarità immagine-immagine tra l'originale e l'immagine ricostruita generata da un modello testo-immagine utilizzando la didascalia; 3) uno studio umano su Amazon Mechanical Turk; 4) GPT-4V per una valutazione granulare. I risultati delle valutazioni mostrano che VFC supera i metodi di captioning open-source all'avanguardia per immagini 2D sul dataset COCO e per asset 3D sul dataset Objaverse. Il nostro studio dimostra che, combinando modelli open-source in una pipeline, è possibile ottenere capacità di captioning paragonabili a modelli proprietari come GPT-4V, nonostante una dimensione del modello oltre 10 volte inferiore.
English
Existing automatic captioning methods for visual content face challenges such
as lack of detail, content hallucination, and poor instruction following. In
this work, we propose VisualFactChecker (VFC), a flexible training-free
pipeline that generates high-fidelity and detailed captions for both 2D images
and 3D objects. VFC consists of three steps: 1) proposal, where image-to-text
captioning models propose multiple initial captions; 2) verification, where a
large language model (LLM) utilizes tools such as object detection and VQA
models to fact-check proposed captions; 3) captioning, where an LLM generates
the final caption by summarizing caption proposals and the fact check
verification results. In this step, VFC can flexibly generate captions in
various styles following complex instructions. We conduct comprehensive
captioning evaluations using four metrics: 1) CLIP-Score for image-text
similarity; 2) CLIP-Image-Score for measuring the image-image similarity
between the original and the reconstructed image generated by a text-to-image
model using the caption. 3) human study on Amazon Mechanical Turk; 4) GPT-4V
for fine-grained evaluation. Evaluation results show that VFC outperforms
state-of-the-art open-sourced captioning methods for 2D images on the COCO
dataset and 3D assets on the Objaverse dataset. Our study demonstrates that by
combining open-source models into a pipeline, we can attain captioning
capability comparable to proprietary models such as GPT-4V, despite being over
10x smaller in model size.