ChatPaper.aiChatPaper

Visuele Feitenchecker: Het mogelijk maken van hoogwaardige gedetailleerde bijschriftgeneratie

Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation

April 30, 2024
Auteurs: Yunhao Ge, Xiaohui Zeng, Jacob Samuel Huffman, Tsung-Yi Lin, Ming-Yu Liu, Yin Cui
cs.AI

Samenvatting

Bestaande automatische bijschriftmethoden voor visuele inhoud kampen met uitdagingen zoals gebrek aan detail, inhoudelijke hallucinaties en slechte instructieopvolging. In dit werk stellen we VisualFactChecker (VFC) voor, een flexibele trainingsvrije pijplijn die hoogwaardige en gedetailleerde bijschriften genereert voor zowel 2D-afbeeldingen als 3D-objecten. VFC bestaat uit drie stappen: 1) voorstel, waarbij beeld-naar-tekst bijschriftmodellen meerdere initiële bijschriften voorstellen; 2) verificatie, waarbij een groot taalmodel (LLM) tools zoals objectdetectie en VQA-modellen gebruikt om voorgestelde bijschriften te factchecken; 3) bijschrijven, waarbij een LLM het definitieve bijschrift genereert door bijschriftvoorstellen en de factcheck-verificatieresultaten samen te vatten. In deze stap kan VFC flexibel bijschriften genereren in verschillende stijlen volgens complexe instructies. We voeren uitgebreide bijschriftevaluaties uit met vier metrieken: 1) CLIP-Score voor beeld-tekstovereenkomst; 2) CLIP-Image-Score voor het meten van de beeld-beeldovereenkomst tussen het originele beeld en het gereconstrueerde beeld gegenereerd door een tekst-naar-beeldmodel met behulp van het bijschrift; 3) een menselijke studie op Amazon Mechanical Turk; 4) GPT-4V voor gedetailleerde evaluatie. Evaluatieresultaten tonen aan dat VFC state-of-the-art open-source bijschriftmethoden overtreft voor 2D-afbeeldingen op de COCO-dataset en 3D-assets op de Objaverse-dataset. Onze studie toont aan dat door open-source modellen te combineren in een pijplijn, we bijschriftmogelijkheden kunnen bereiken die vergelijkbaar zijn met propriëtaire modellen zoals GPT-4V, ondanks een modelgrootte die meer dan 10x kleiner is.
English
Existing automatic captioning methods for visual content face challenges such as lack of detail, content hallucination, and poor instruction following. In this work, we propose VisualFactChecker (VFC), a flexible training-free pipeline that generates high-fidelity and detailed captions for both 2D images and 3D objects. VFC consists of three steps: 1) proposal, where image-to-text captioning models propose multiple initial captions; 2) verification, where a large language model (LLM) utilizes tools such as object detection and VQA models to fact-check proposed captions; 3) captioning, where an LLM generates the final caption by summarizing caption proposals and the fact check verification results. In this step, VFC can flexibly generate captions in various styles following complex instructions. We conduct comprehensive captioning evaluations using four metrics: 1) CLIP-Score for image-text similarity; 2) CLIP-Image-Score for measuring the image-image similarity between the original and the reconstructed image generated by a text-to-image model using the caption. 3) human study on Amazon Mechanical Turk; 4) GPT-4V for fine-grained evaluation. Evaluation results show that VFC outperforms state-of-the-art open-sourced captioning methods for 2D images on the COCO dataset and 3D assets on the Objaverse dataset. Our study demonstrates that by combining open-source models into a pipeline, we can attain captioning capability comparable to proprietary models such as GPT-4V, despite being over 10x smaller in model size.
PDF244February 8, 2026