言葉で描く:ベンチマークとアライメント学習による詳細な画像キャプション生成の向上
Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning
March 10, 2025
著者: Qinghao Ye, Xianhan Zeng, Fu Li, Chunyuan Li, Haoqi Fan
cs.AI
要旨
画像キャプショニングは長らく視覚理解における重要なタスクであり、近年の視覚言語モデル(VLM)の進展により、詳細な画像キャプション生成能力が大幅に向上しています。しかし、詳細な画像キャプショニングの評価は、時代遅れの評価指標と粗いアノテーションのため、十分に探究されていません。本論文では、詳細なキャプショニングタスクに特化した新しい指標DCScoreとともに、DeCapBenchを紹介します。DCScoreは、応答を最小の自己完結型単位である「原始情報単位」に分解し、個別に評価することで、幻覚と細粒度の包括性を評価します。我々の評価では、DCScoreが他のルールベースまたはモデルベースの指標よりも人間の判断に近いことが示されています。同時に、DeCapBenchは記述タスクにおいてVLMアリーナの結果と高い相関を示し、既存の視覚言語モデルのベンチマークを凌駕しています。さらに、我々は先進的な指標に基づく選好最適化のための自動細粒度フィードバック収集手法FeedQuillを提示し、自動生成された選好データにおいて堅牢な汎化能力を示します。複数のVLMに対する広範な実験により、本手法が幻覚を大幅に減少させるだけでなく、様々なベンチマークで性能を向上させ、GPT-4oを凌ぐ優れた詳細キャプショニング性能を達成することが実証されています。
English
Image captioning has long been a pivotal task in visual understanding, with
recent advancements in vision-language models (VLMs) significantly enhancing
the ability to generate detailed image captions. However, the evaluation of
detailed image captioning remains underexplored due to outdated evaluation
metrics and coarse annotations. In this paper, we introduce DeCapBench along
with a novel metric, DCScore, specifically designed for detailed captioning
tasks. DCScore evaluates hallucinations and fine-grained comprehensiveness by
deconstructing responses into the smallest self-sufficient units, termed
primitive information units, and assessing them individually. Our evaluation
shows that DCScore aligns more closely with human judgment than other
rule-based or model-based metrics. Concurrently, DeCapBench exhibits a high
correlation with VLM arena results on descriptive tasks, surpassing existing
benchmarks for vision-language models. Additionally, we present an automatic
fine-grained feedback collection method, FeedQuill, for preference optimization
based on our advanced metric, showing robust generalization capabilities across
auto-generated preference data. Extensive experiments on multiple VLMs
demonstrate that our method not only significantly reduces hallucinations but
also enhances performance across various benchmarks, achieving superior detail
captioning performance while surpassing GPT-4o.Summary
AI-Generated Summary