Verificador Visual de Fatos: Permitindo a Geração de Legendas Detalhadas de Alta Fidelidade
Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation
April 30, 2024
Autores: Yunhao Ge, Xiaohui Zeng, Jacob Samuel Huffman, Tsung-Yi Lin, Ming-Yu Liu, Yin Cui
cs.AI
Resumo
Os métodos existentes de legendagem automática para conteúdo visual enfrentam desafios como falta de detalhes, alucinação de conteúdo e baixa aderência a instruções. Neste trabalho, propomos o VisualFactChecker (VFC), um pipeline flexível e sem necessidade de treinamento que gera legendas de alta fidelidade e detalhadas tanto para imagens 2D quanto para objetos 3D. O VFC consiste em três etapas: 1) proposta, onde modelos de legendagem de imagem para texto sugerem múltiplas legendas iniciais; 2) verificação, onde um modelo de linguagem de grande escala (LLM) utiliza ferramentas como detecção de objetos e modelos de VQA (Visual Question Answering) para verificar a veracidade das legendas propostas; 3) legendagem, onde um LLM gera a legenda final resumindo as propostas de legendas e os resultados da verificação de fatos. Nesta etapa, o VFC pode gerar legendas de forma flexível em vários estilos, seguindo instruções complexas. Realizamos avaliações abrangentes de legendagem usando quatro métricas: 1) CLIP-Score para similaridade entre imagem e texto; 2) CLIP-Image-Score para medir a similaridade entre a imagem original e a imagem reconstruída gerada por um modelo de texto para imagem usando a legenda; 3) estudo humano no Amazon Mechanical Turk; 4) GPT-4V para avaliação detalhada. Os resultados da avaliação mostram que o VFC supera os métodos de legendagem de código aberto mais avançados para imagens 2D no conjunto de dados COCO e para ativos 3D no conjunto de dados Objaverse. Nosso estudo demonstra que, ao combinar modelos de código aberto em um pipeline, podemos alcançar capacidade de legendagem comparável a modelos proprietários como o GPT-4V, apesar de ser mais de 10 vezes menor em tamanho de modelo.
English
Existing automatic captioning methods for visual content face challenges such
as lack of detail, content hallucination, and poor instruction following. In
this work, we propose VisualFactChecker (VFC), a flexible training-free
pipeline that generates high-fidelity and detailed captions for both 2D images
and 3D objects. VFC consists of three steps: 1) proposal, where image-to-text
captioning models propose multiple initial captions; 2) verification, where a
large language model (LLM) utilizes tools such as object detection and VQA
models to fact-check proposed captions; 3) captioning, where an LLM generates
the final caption by summarizing caption proposals and the fact check
verification results. In this step, VFC can flexibly generate captions in
various styles following complex instructions. We conduct comprehensive
captioning evaluations using four metrics: 1) CLIP-Score for image-text
similarity; 2) CLIP-Image-Score for measuring the image-image similarity
between the original and the reconstructed image generated by a text-to-image
model using the caption. 3) human study on Amazon Mechanical Turk; 4) GPT-4V
for fine-grained evaluation. Evaluation results show that VFC outperforms
state-of-the-art open-sourced captioning methods for 2D images on the COCO
dataset and 3D assets on the Objaverse dataset. Our study demonstrates that by
combining open-source models into a pipeline, we can attain captioning
capability comparable to proprietary models such as GPT-4V, despite being over
10x smaller in model size.