ChatPaper.aiChatPaper

Vérificateur visuel de faits : Permettant la génération de légendes détaillées et de haute fidélité

Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation

April 30, 2024
Auteurs: Yunhao Ge, Xiaohui Zeng, Jacob Samuel Huffman, Tsung-Yi Lin, Ming-Yu Liu, Yin Cui
cs.AI

Résumé

Les méthodes existantes de génération automatique de légendes pour le contenu visuel rencontrent des défis tels que le manque de détails, les hallucinations de contenu et le faible suivi des instructions. Dans ce travail, nous proposons VisualFactChecker (VFC), un pipeline flexible et sans apprentissage qui génère des légendes détaillées et fidèles pour les images 2D et les objets 3D. VFC se compose de trois étapes : 1) proposition, où des modèles de légendage image-texte proposent plusieurs légendes initiales ; 2) vérification, où un grand modèle de langage (LLM) utilise des outils tels que la détection d'objets et des modèles de question-réponse visuelle (VQA) pour vérifier les légendes proposées ; 3) légendage, où un LLM génère la légende finale en résumant les propositions de légendes et les résultats de la vérification. À cette étape, VFC peut générer de manière flexible des légendes dans divers styles en suivant des instructions complexes. Nous menons des évaluations complètes du légendage en utilisant quatre métriques : 1) le CLIP-Score pour la similarité image-texte ; 2) le CLIP-Image-Score pour mesurer la similarité image-image entre l'image originale et l'image reconstruite générée par un modèle texte-image utilisant la légende ; 3) une étude humaine sur Amazon Mechanical Turk ; 4) GPT-4V pour une évaluation fine. Les résultats d'évaluation montrent que VFC surpasse les méthodes de légendage open-source de pointe pour les images 2D sur le dataset COCO et les assets 3D sur le dataset Objaverse. Notre étude démontre qu'en combinant des modèles open-source dans un pipeline, nous pouvons atteindre une capacité de légendage comparable à celle de modèles propriétaires comme GPT-4V, malgré une taille de modèle plus de 10 fois inférieure.
English
Existing automatic captioning methods for visual content face challenges such as lack of detail, content hallucination, and poor instruction following. In this work, we propose VisualFactChecker (VFC), a flexible training-free pipeline that generates high-fidelity and detailed captions for both 2D images and 3D objects. VFC consists of three steps: 1) proposal, where image-to-text captioning models propose multiple initial captions; 2) verification, where a large language model (LLM) utilizes tools such as object detection and VQA models to fact-check proposed captions; 3) captioning, where an LLM generates the final caption by summarizing caption proposals and the fact check verification results. In this step, VFC can flexibly generate captions in various styles following complex instructions. We conduct comprehensive captioning evaluations using four metrics: 1) CLIP-Score for image-text similarity; 2) CLIP-Image-Score for measuring the image-image similarity between the original and the reconstructed image generated by a text-to-image model using the caption. 3) human study on Amazon Mechanical Turk; 4) GPT-4V for fine-grained evaluation. Evaluation results show that VFC outperforms state-of-the-art open-sourced captioning methods for 2D images on the COCO dataset and 3D assets on the Objaverse dataset. Our study demonstrates that by combining open-source models into a pipeline, we can attain captioning capability comparable to proprietary models such as GPT-4V, despite being over 10x smaller in model size.

Summary

AI-Generated Summary

PDF254December 8, 2024