Visual Fact Checker: Abilitazione della Generazione di Didascalie Dettagliate ad Alta Fedeltà

Abstract

I metodi esistenti per la generazione automatica di didascalie per contenuti visivi affrontano sfide come la mancanza di dettagli, l'allucinazione di contenuti e una scarsa aderenza alle istruzioni. In questo lavoro, proponiamo VisualFactChecker (VFC), una pipeline flessibile e senza necessità di addestramento che genera didascalie ad alta fedeltà e dettagliate sia per immagini 2D che per oggetti 3D. VFC si compone di tre passaggi: 1) proposta, in cui modelli di captioning da immagine a testo generano multiple didascalie iniziali; 2) verifica, in cui un modello linguistico di grandi dimensioni (LLM) utilizza strumenti come modelli di rilevamento oggetti e VQA per controllare i fatti delle didascalie proposte; 3) captioning, in cui un LLM genera la didascalia finale sintetizzando le proposte di didascalie e i risultati della verifica dei fatti. In questa fase, VFC può generare flessibilmente didascalie in vari stili seguendo istruzioni complesse. Eseguiamo valutazioni complete del captioning utilizzando quattro metriche: 1) CLIP-Score per la similarità immagine-testo; 2) CLIP-Image-Score per misurare la similarità immagine-immagine tra l'originale e l'immagine ricostruita generata da un modello testo-immagine utilizzando la didascalia; 3) uno studio umano su Amazon Mechanical Turk; 4) GPT-4V per una valutazione granulare. I risultati delle valutazioni mostrano che VFC supera i metodi di captioning open-source all'avanguardia per immagini 2D sul dataset COCO e per asset 3D sul dataset Objaverse. Il nostro studio dimostra che, combinando modelli open-source in una pipeline, è possibile ottenere capacità di captioning paragonabili a modelli proprietari come GPT-4V, nonostante una dimensione del modello oltre 10 volte inferiore.

English

Existing automatic captioning methods for visual content face challenges such as lack of detail, content hallucination, and poor instruction following. In this work, we propose VisualFactChecker (VFC), a flexible training-free pipeline that generates high-fidelity and detailed captions for both 2D images and 3D objects. VFC consists of three steps: 1) proposal, where image-to-text captioning models propose multiple initial captions; 2) verification, where a large language model (LLM) utilizes tools such as object detection and VQA models to fact-check proposed captions; 3) captioning, where an LLM generates the final caption by summarizing caption proposals and the fact check verification results. In this step, VFC can flexibly generate captions in various styles following complex instructions. We conduct comprehensive captioning evaluations using four metrics: 1) CLIP-Score for image-text similarity; 2) CLIP-Image-Score for measuring the image-image similarity between the original and the reconstructed image generated by a text-to-image model using the caption. 3) human study on Amazon Mechanical Turk; 4) GPT-4V for fine-grained evaluation. Evaluation results show that VFC outperforms state-of-the-art open-sourced captioning methods for 2D images on the COCO dataset and 3D assets on the Objaverse dataset. Our study demonstrates that by combining open-source models into a pipeline, we can attain captioning capability comparable to proprietary models such as GPT-4V, despite being over 10x smaller in model size.

Visual Fact Checker: Abilitazione della Generazione di Didascalie Dettagliate ad Alta Fedeltà

Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation

Abstract

Support