ChatPaper.aiChatPaper

시각적 사실 확인기: 고해상도 세부 캡션 생성을 위한 도구

Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation

April 30, 2024
저자: Yunhao Ge, Xiaohui Zeng, Jacob Samuel Huffman, Tsung-Yi Lin, Ming-Yu Liu, Yin Cui
cs.AI

초록

기존의 시각 콘텐츠 자동 캡션 생성 방법은 세부 사항 부족, 내용의 환각(hallucination), 그리고 지시 사항을 잘 따르지 못하는 등의 문제에 직면해 있습니다. 본 연구에서는 2D 이미지와 3D 객체 모두에 대해 높은 충실도와 세부적인 캡션을 생성할 수 있는 유연한 학습 없는 파이프라인인 VisualFactChecker(VFC)를 제안합니다. VFC는 세 단계로 구성됩니다: 1) 제안 단계, 이미지-텍스트 캡션 생성 모델이 여러 초기 캡션을 제안; 2) 검증 단계, 대형 언어 모델(LLM)이 객체 감지 및 VQA 모델과 같은 도구를 활용하여 제안된 캡션을 사실 확인; 3) 캡션 생성 단계, LLM이 캡션 제안과 사실 확인 결과를 요약하여 최종 캡션을 생성. 이 단계에서 VFC는 복잡한 지시 사항을 따라 다양한 스타일로 유연하게 캡션을 생성할 수 있습니다. 우리는 네 가지 지표를 사용하여 포괄적인 캡션 평가를 수행했습니다: 1) 이미지-텍스트 유사성을 측정하는 CLIP-Score; 2) 원본 이미지와 캡션을 사용하여 텍스트-이미지 모델로 생성된 재구성 이미지 간의 이미지-이미지 유사성을 측정하는 CLIP-Image-Score; 3) Amazon Mechanical Turk를 통한 인간 평가; 4) 세부 평가를 위한 GPT-4V. 평가 결과, VFC는 COCO 데이터셋의 2D 이미지와 Objaverse 데이터셋의 3D 자산에 대해 최신 오픈소스 캡션 생성 방법을 능가하는 성능을 보였습니다. 우리의 연구는 오픈소스 모델을 파이프라인으로 결합함으로써, 모델 크기가 10배 이상 작음에도 불구하고 GPT-4V와 같은 독점 모델에 필적하는 캡션 생성 능력을 달성할 수 있음을 보여줍니다.
English
Existing automatic captioning methods for visual content face challenges such as lack of detail, content hallucination, and poor instruction following. In this work, we propose VisualFactChecker (VFC), a flexible training-free pipeline that generates high-fidelity and detailed captions for both 2D images and 3D objects. VFC consists of three steps: 1) proposal, where image-to-text captioning models propose multiple initial captions; 2) verification, where a large language model (LLM) utilizes tools such as object detection and VQA models to fact-check proposed captions; 3) captioning, where an LLM generates the final caption by summarizing caption proposals and the fact check verification results. In this step, VFC can flexibly generate captions in various styles following complex instructions. We conduct comprehensive captioning evaluations using four metrics: 1) CLIP-Score for image-text similarity; 2) CLIP-Image-Score for measuring the image-image similarity between the original and the reconstructed image generated by a text-to-image model using the caption. 3) human study on Amazon Mechanical Turk; 4) GPT-4V for fine-grained evaluation. Evaluation results show that VFC outperforms state-of-the-art open-sourced captioning methods for 2D images on the COCO dataset and 3D assets on the Objaverse dataset. Our study demonstrates that by combining open-source models into a pipeline, we can attain captioning capability comparable to proprietary models such as GPT-4V, despite being over 10x smaller in model size.

Summary

AI-Generated Summary

PDF254December 8, 2024