ScaleCap: 이중 모달리티 편향 제거를 통한 추론 시점 확장 가능 이미지 캡셔닝
ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing
June 24, 2025
저자: Long Xing, Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI
초록
본 논문은 포괄적이고 상세한 이미지 캡션을 생성하는 추론 시점 확장 가능한 이미지 캡션 전략인 ScaleCap을 소개한다. 고품질 이미지 캡션 생성의 주요 과제는 LVLM(Large Vision-Language Model)의 내재적 편향에 있다: 다중 모달리티 편향으로 인해 일부 요소에 대한 상세한 설명이 제공되는 반면 다른 요소는 간략히 언급되는 불균형적인 기술 수준이 나타나며, 언어적 편향으로 인해 존재하지 않는 객체에 대한 환각적 설명이 발생한다. 이러한 문제를 해결하기 위해, 우리는 추론 예산이 증가함에 따라 캡션을 지속적으로 풍부하게 하고 보정하는 확장 가능한 편향 제거 캡션 전략을 제안한다. 구체적으로, 우리는 두 가지 새로운 구성 요소를 제안한다: 휴리스틱 질문 응답과 대조적 문장 평가. 전자는 이미지를 기반으로 콘텐츠 특정 질문을 생성하고 이를 답변함으로써 캡션에 관련 정보를 점진적으로 주입한다. 후자는 문장 수준의 오프라인 대조적 디코딩을 사용하여 언어적 편향으로 인한 환각을 효과적으로 식별하고 제거한다. 추론 비용이 증가함에 따라 ScaleCap은 더 많은 휴리스틱 질문을 생성하여 추가적인 시각적 세부 사항을 점진적으로 포착함으로써 더 정확하고 균형 잡힌 정보를 제공하는 캡션을 생성한다. 광범위한 모달리티 정렬 실험을 통해 ScaleCap의 효과를 입증하였다. ScaleCap으로 450K 이미지를 주석 처리하고 이를 LVLM 사전 학습에 사용한 결과, 11개의 널리 사용되는 벤치마크에서 일관된 성능 향상을 보였다. 또한, ScaleCap은 VQA 작업에서 이미지를 캡션으로 대체하고 캡션에서 이미지를 재구성하여 의미론적 범위를 평가하는 두 가지 추가 작업을 통해 생성된 캡션의 탁월한 풍부성과 충실도를 입증하였다. 코드는 https://github.com/Cooperx521/ScaleCap에서 확인할 수 있다.
English
This paper presents ScaleCap, an inference-time scalable image captioning
strategy that generates comprehensive and detailed image captions. The key
challenges of high-quality image captioning lie in the inherent biases of
LVLMs: multimodal bias resulting in imbalanced descriptive granularity,
offering detailed accounts of some elements while merely skimming over others;
linguistic bias leading to hallucinated descriptions of non-existent objects.
To address these issues, we propose a scalable debiased captioning strategy,
which continuously enriches and calibrates the caption with increased inference
budget. Specifically, we propose two novel components: heuristic question
answering and contrastive sentence rating. The former generates
content-specific questions based on the image and answers them to progressively
inject relevant information into the caption. The latter employs sentence-level
offline contrastive decoding to effectively identify and eliminate
hallucinations caused by linguistic biases. With increased inference cost, more
heuristic questions are raised by ScaleCap to progressively capture additional
visual details, generating captions that are more accurate, balanced, and
informative. Extensive modality alignment experiments demonstrate the
effectiveness of ScaleCap. Annotating 450K images with ScaleCap and using them
for LVLM pretraining leads to consistent performance gains across 11 widely
used benchmarks. Furthermore, ScaleCap showcases superb richness and fidelity
of generated captions with two additional tasks: replacing images with captions
in VQA task, and reconstructing images from captions to assess semantic
coverage. Code is available at https://github.com/Cooperx521/ScaleCap.