Рисование словами: Совершенствование детализированного описания изображений с использованием бенчмарка и обучения выравниванию
Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning
March 10, 2025
Авторы: Qinghao Ye, Xianhan Zeng, Fu Li, Chunyuan Li, Haoqi Fan
cs.AI
Аннотация
Создание описаний изображений долгое время оставалось ключевой задачей в области визуального понимания, и недавние достижения в моделях, объединяющих зрение и язык (VLMs), значительно улучшили способность генерировать детализированные описания изображений. Однако оценка детализированных описаний изображений остается недостаточно изученной из-за устаревших метрик оценки и грубых аннотаций. В данной статье мы представляем DeCapBench вместе с новой метрикой, DCScore, специально разработанной для задач детализированного описания. DCScore оценивает галлюцинации и детальную полноту, разбивая ответы на наименьшие самодостаточные единицы, называемые примитивными информационными единицами, и оценивая их по отдельности. Наша оценка показывает, что DCScore лучше согласуется с человеческим суждением, чем другие метрики, основанные на правилах или моделях. В то же время, DeCapBench демонстрирует высокую корреляцию с результатами VLM-арены на задачах описания, превосходя существующие бенчмарки для моделей, объединяющих зрение и язык. Кроме того, мы представляем автоматический метод сбора детализированной обратной связи, FeedQuill, для оптимизации предпочтений на основе нашей продвинутой метрики, демонстрируя устойчивые возможности обобщения на автоматически сгенерированных данных предпочтений. Многочисленные эксперименты на нескольких VLMs показывают, что наш метод не только значительно снижает галлюцинации, но и улучшает производительность на различных бенчмарках, достигая превосходных результатов в детализированном описании и превосходя GPT-4o.
English
Image captioning has long been a pivotal task in visual understanding, with
recent advancements in vision-language models (VLMs) significantly enhancing
the ability to generate detailed image captions. However, the evaluation of
detailed image captioning remains underexplored due to outdated evaluation
metrics and coarse annotations. In this paper, we introduce DeCapBench along
with a novel metric, DCScore, specifically designed for detailed captioning
tasks. DCScore evaluates hallucinations and fine-grained comprehensiveness by
deconstructing responses into the smallest self-sufficient units, termed
primitive information units, and assessing them individually. Our evaluation
shows that DCScore aligns more closely with human judgment than other
rule-based or model-based metrics. Concurrently, DeCapBench exhibits a high
correlation with VLM arena results on descriptive tasks, surpassing existing
benchmarks for vision-language models. Additionally, we present an automatic
fine-grained feedback collection method, FeedQuill, for preference optimization
based on our advanced metric, showing robust generalization capabilities across
auto-generated preference data. Extensive experiments on multiple VLMs
demonstrate that our method not only significantly reduces hallucinations but
also enhances performance across various benchmarks, achieving superior detail
captioning performance while surpassing GPT-4o.Summary
AI-Generated Summary