Visueller Faktenchecker: Ermöglichen der hochwertigen detaillierten Bildunterschriftsgenerierung
Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation
April 30, 2024
Autoren: Yunhao Ge, Xiaohui Zeng, Jacob Samuel Huffman, Tsung-Yi Lin, Ming-Yu Liu, Yin Cui
cs.AI
Zusammenfassung
Bestehende automatische Untertitelungsmethoden für visuelle Inhalte stehen vor Herausforderungen wie mangelnder Detailgenauigkeit, Inhalts-Halluzinationen und schlechter Anweisungsbefolgung. In dieser Arbeit schlagen wir VisualFactChecker (VFC) vor, eine flexible, trainingsfreie Pipeline, die hochwertige und detaillierte Untertitel für sowohl 2D-Bilder als auch 3D-Objekte generiert. VFC besteht aus drei Schritten: 1) Vorschlag, bei dem Bild-zu-Text-Untertitelungsmodelle mehrere anfängliche Untertitel vorschlagen; 2) Überprüfung, bei der ein großes Sprachmodell (LLM) Tools wie Objekterkennung und VQA-Modelle nutzt, um die vorgeschlagenen Untertitel zu überprüfen; 3) Untertitelung, bei der ein LLM den endgültigen Untertitel generiert, indem er die Untertitelvorschläge und die Ergebnisse der Faktenüberprüfung zusammenfasst. In diesem Schritt kann VFC flexibel Untertitel in verschiedenen Stilen gemäß komplexen Anweisungen generieren. Wir führen umfassende Untertitelungsbewertungen durch, die vier Metriken umfassen: 1) CLIP-Score für die Ähnlichkeit von Bild und Text; 2) CLIP-Image-Score zur Messung der Bild-Bild-Ähnlichkeit zwischen dem Original und dem rekonstruierten Bild, das von einem Text-zu-Bild-Modell unter Verwendung des Untertitels generiert wurde. 3) Benutzerstudie auf Amazon Mechanical Turk; 4) GPT-4V für eine feingranulare Bewertung. Die Evaluierungsergebnisse zeigen, dass VFC im Vergleich zu modernsten quelloffenen Untertitelungsmethoden für 2D-Bilder im COCO-Datensatz und 3D-Assets im Objaverse-Datensatz überlegen ist. Unsere Studie zeigt, dass wir durch die Kombination von quelloffenen Modellen in einer Pipeline eine Untertitelungsfähigkeit erreichen können, die mit proprietären Modellen wie GPT-4V vergleichbar ist, obwohl sie über 10-mal kleiner in Modellgröße ist.
English
Existing automatic captioning methods for visual content face challenges such
as lack of detail, content hallucination, and poor instruction following. In
this work, we propose VisualFactChecker (VFC), a flexible training-free
pipeline that generates high-fidelity and detailed captions for both 2D images
and 3D objects. VFC consists of three steps: 1) proposal, where image-to-text
captioning models propose multiple initial captions; 2) verification, where a
large language model (LLM) utilizes tools such as object detection and VQA
models to fact-check proposed captions; 3) captioning, where an LLM generates
the final caption by summarizing caption proposals and the fact check
verification results. In this step, VFC can flexibly generate captions in
various styles following complex instructions. We conduct comprehensive
captioning evaluations using four metrics: 1) CLIP-Score for image-text
similarity; 2) CLIP-Image-Score for measuring the image-image similarity
between the original and the reconstructed image generated by a text-to-image
model using the caption. 3) human study on Amazon Mechanical Turk; 4) GPT-4V
for fine-grained evaluation. Evaluation results show that VFC outperforms
state-of-the-art open-sourced captioning methods for 2D images on the COCO
dataset and 3D assets on the Objaverse dataset. Our study demonstrates that by
combining open-source models into a pipeline, we can attain captioning
capability comparable to proprietary models such as GPT-4V, despite being over
10x smaller in model size.Summary
AI-Generated Summary