ChatPaper.aiChatPaper

ビジュアルファクトチェッカー:高精度な詳細キャプション生成を実現

Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation

April 30, 2024
著者: Yunhao Ge, Xiaohui Zeng, Jacob Samuel Huffman, Tsung-Yi Lin, Ming-Yu Liu, Yin Cui
cs.AI

要旨

既存の視覚コンテンツ向け自動キャプション生成手法は、詳細の欠如、内容の虚構化、指示への従順性の低さといった課題に直面している。本研究では、2D画像と3Dオブジェクトの両方に対して高忠実度で詳細なキャプションを生成する、柔軟な学習不要パイプラインであるVisualFactChecker(VFC)を提案する。VFCは3つのステップで構成される:1)提案ステップでは、画像からテキストへのキャプション生成モデルが複数の初期キャプションを提案する;2)検証ステップでは、大規模言語モデル(LLM)が物体検出やVQAモデルなどのツールを活用して、提案されたキャプションを事実確認する;3)キャプション生成ステップでは、LLMがキャプション提案と事実確認の結果を要約して最終キャプションを生成する。このステップにおいて、VFCは複雑な指示に従って様々なスタイルのキャプションを柔軟に生成できる。我々は4つの指標を用いて包括的なキャプション評価を実施した:1)画像とテキストの類似度を測るCLIP-Score;2)キャプションを用いてテキストから画像を生成するモデルによって再構築された画像と元の画像の類似度を測るCLIP-Image-Score;3)Amazon Mechanical Turkを用いた人間による評価;4)細粒度評価のためのGPT-4V。評価結果は、VFCがCOCOデータセットの2D画像とObjaverseデータセットの3Dアセットにおいて、最先端のオープンソースキャプション生成手法を凌駕することを示している。我々の研究は、オープンソースモデルをパイプラインに組み合わせることで、モデルサイズが10倍以上小さいにもかかわらず、GPT-4Vのようなプロプライエタリモデルに匹敵するキャプション生成能力を達成できることを実証している。
English
Existing automatic captioning methods for visual content face challenges such as lack of detail, content hallucination, and poor instruction following. In this work, we propose VisualFactChecker (VFC), a flexible training-free pipeline that generates high-fidelity and detailed captions for both 2D images and 3D objects. VFC consists of three steps: 1) proposal, where image-to-text captioning models propose multiple initial captions; 2) verification, where a large language model (LLM) utilizes tools such as object detection and VQA models to fact-check proposed captions; 3) captioning, where an LLM generates the final caption by summarizing caption proposals and the fact check verification results. In this step, VFC can flexibly generate captions in various styles following complex instructions. We conduct comprehensive captioning evaluations using four metrics: 1) CLIP-Score for image-text similarity; 2) CLIP-Image-Score for measuring the image-image similarity between the original and the reconstructed image generated by a text-to-image model using the caption. 3) human study on Amazon Mechanical Turk; 4) GPT-4V for fine-grained evaluation. Evaluation results show that VFC outperforms state-of-the-art open-sourced captioning methods for 2D images on the COCO dataset and 3D assets on the Objaverse dataset. Our study demonstrates that by combining open-source models into a pipeline, we can attain captioning capability comparable to proprietary models such as GPT-4V, despite being over 10x smaller in model size.

Summary

AI-Generated Summary

PDF254December 8, 2024