Визуальный факт-чекер: обеспечение генерации подробных подписей высокой точности.
Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation
April 30, 2024
Авторы: Yunhao Ge, Xiaohui Zeng, Jacob Samuel Huffman, Tsung-Yi Lin, Ming-Yu Liu, Yin Cui
cs.AI
Аннотация
Существующие методы автоматической генерации подписей для визуального контента сталкиваются с такими проблемами, как недостаток деталей, галлюцинации контента и недостаточное следование инструкциям. В данной работе мы предлагаем VisualFactChecker (VFC), гибкую тренировочно-независимую конвейерную систему, которая генерирует качественные и детальные подписи как для 2D изображений, так и для 3D объектов. VFC состоит из трех этапов: 1) предложение, на котором модели генерации текста к изображениям предлагают несколько начальных подписей; 2) верификация, где большая языковая модель (LLM) использует инструменты, такие как обнаружение объектов и модели VQA, для проверки фактов в предложенных подписях; 3) генерация подписи, где LLM создает окончательную подпись, суммируя предложения подписей и результаты верификации проверки фактов. На этом этапе VFC способен гибко генерировать подписи в различных стилях, следуя сложным инструкциям. Мы проводим всестороннюю оценку подписей с использованием четырех метрик: 1) CLIP-Score для сходства изображения и текста; 2) CLIP-Image-Score для измерения сходства между оригинальным изображением и воссозданным изображением, сгенерированным моделью текст-к-изображению с использованием подписи; 3) исследование с участием людей на платформе Amazon Mechanical Turk; 4) GPT-4V для детальной оценки. Результаты оценки показывают, что VFC превосходит современные методы генерации подписей для 2D изображений на наборе данных COCO и 3D объектов на наборе данных Objaverse. Наше исследование демонстрирует, что путем объединения моделей с открытым исходным кодом в конвейерную систему мы можем достичь возможности генерации подписей, сравнимой с закрытыми моделями, такими как GPT-4V, несмотря на более чем 10-кратно меньший размер модели.
English
Existing automatic captioning methods for visual content face challenges such
as lack of detail, content hallucination, and poor instruction following. In
this work, we propose VisualFactChecker (VFC), a flexible training-free
pipeline that generates high-fidelity and detailed captions for both 2D images
and 3D objects. VFC consists of three steps: 1) proposal, where image-to-text
captioning models propose multiple initial captions; 2) verification, where a
large language model (LLM) utilizes tools such as object detection and VQA
models to fact-check proposed captions; 3) captioning, where an LLM generates
the final caption by summarizing caption proposals and the fact check
verification results. In this step, VFC can flexibly generate captions in
various styles following complex instructions. We conduct comprehensive
captioning evaluations using four metrics: 1) CLIP-Score for image-text
similarity; 2) CLIP-Image-Score for measuring the image-image similarity
between the original and the reconstructed image generated by a text-to-image
model using the caption. 3) human study on Amazon Mechanical Turk; 4) GPT-4V
for fine-grained evaluation. Evaluation results show that VFC outperforms
state-of-the-art open-sourced captioning methods for 2D images on the COCO
dataset and 3D assets on the Objaverse dataset. Our study demonstrates that by
combining open-source models into a pipeline, we can attain captioning
capability comparable to proprietary models such as GPT-4V, despite being over
10x smaller in model size.