ChatPaper.aiChatPaper

단어로 그리기: 벤치마크와 정렬 학습을 통한 세부 이미지 캡셔닝 향상

Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning

March 10, 2025
저자: Qinghao Ye, Xianhan Zeng, Fu Li, Chunyuan Li, Haoqi Fan
cs.AI

초록

이미지 캡셔닝은 오랫동안 시각 이해의 핵심 과제로 자리 잡아 왔으며, 최근 비전-언어 모델(VLMs)의 발전으로 상세한 이미지 캡션 생성 능력이 크게 향상되었습니다. 그러나 상세한 이미지 캡셔닝의 평가는 구식 평가 지표와 대략적인 주석으로 인해 충분히 탐구되지 못했습니다. 본 논문에서는 상세 캡셔닝 작업을 위해 특별히 설계된 새로운 지표인 DCScore와 함께 DeCapBench를 소개합니다. DCScore는 응답을 가장 작은 자립 단위인 원시 정보 단위로 분해하고 이를 개별적으로 평가함으로써 환각(hallucination)과 세분화된 포괄성을 평가합니다. 우리의 평가 결과, DCScore는 다른 규칙 기반 또는 모델 기반 지표보다 인간의 판단과 더 밀접하게 일치함을 보여줍니다. 동시에, DeCapBench는 기술적 작업에서 VLM 아레나 결과와 높은 상관관계를 보이며, 기존의 비전-언어 모델 벤치마크를 능가합니다. 또한, 우리는 고급 지표를 기반으로 선호도 최적화를 위한 자동 세분화 피드백 수집 방법인 FeedQuill을 제시하며, 이는 자동 생성된 선호도 데이터에서 강력한 일반화 능력을 보여줍니다. 여러 VLM에 대한 광범위한 실험을 통해 우리의 방법이 환각을 크게 줄일 뿐만 아니라 다양한 벤치마크에서 성능을 향상시키며, GPT-4o를 능가하는 우수한 상세 캡셔닝 성능을 달성함을 입증합니다.
English
Image captioning has long been a pivotal task in visual understanding, with recent advancements in vision-language models (VLMs) significantly enhancing the ability to generate detailed image captions. However, the evaluation of detailed image captioning remains underexplored due to outdated evaluation metrics and coarse annotations. In this paper, we introduce DeCapBench along with a novel metric, DCScore, specifically designed for detailed captioning tasks. DCScore evaluates hallucinations and fine-grained comprehensiveness by deconstructing responses into the smallest self-sufficient units, termed primitive information units, and assessing them individually. Our evaluation shows that DCScore aligns more closely with human judgment than other rule-based or model-based metrics. Concurrently, DeCapBench exhibits a high correlation with VLM arena results on descriptive tasks, surpassing existing benchmarks for vision-language models. Additionally, we present an automatic fine-grained feedback collection method, FeedQuill, for preference optimization based on our advanced metric, showing robust generalization capabilities across auto-generated preference data. Extensive experiments on multiple VLMs demonstrate that our method not only significantly reduces hallucinations but also enhances performance across various benchmarks, achieving superior detail captioning performance while surpassing GPT-4o.

Summary

AI-Generated Summary

PDF42March 21, 2025