ScaleCap: デュアルモダリティ・デバイアシングによる推論時スケーラブルな画像キャプショニング
ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing
June 24, 2025
著者: Long Xing, Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI
要旨
本論文では、包括的かつ詳細な画像キャプションを生成する推論時スケーラブルな画像キャプション戦略「ScaleCap」を提案する。高品質な画像キャプション生成における主要な課題は、大規模視覚言語モデル(LVLM)に内在するバイアスにある。具体的には、多モーダルバイアスによる記述粒度の不均衡(一部の要素を詳細に記述する一方で他の要素を軽視する)や、言語的バイアスによる存在しない物体の幻覚的記述が挙げられる。これらの問題に対処するため、我々は推論予算の増加に伴ってキャプションを継続的に充実させ、較正するスケーラブルなデバイアスキャプション戦略を提案する。特に、ヒューリスティックな質問応答と対照的な文評価という2つの新規コンポーネントを導入する。前者は画像に基づいて内容固有の質問を生成し、それに答えることで関連情報をキャプションに段階的に注入する。後者は文レベルのオフライン対照デコードを用いて、言語的バイアスによる幻覚を効果的に識別し排除する。推論コストが増加するにつれて、ScaleCapはより多くのヒューリスティックな質問を生成し、追加の視覚的詳細を段階的に捕捉することで、より正確でバランスの取れた情報量の多いキャプションを生成する。大規模なモダリティアライメント実験により、ScaleCapの有効性が実証された。ScaleCapを用いて45万枚の画像にアノテーションを施し、それをLVLMの事前学習に使用した結果、11の広く使用されているベンチマークで一貫した性能向上が確認された。さらに、ScaleCapは生成キャプションの豊富さと忠実度を、VQAタスクにおける画像のキャプション置換や、キャプションからの画像再構築による意味的カバレッジ評価という2つの追加タスクで示した。コードはhttps://github.com/Cooperx521/ScaleCapで公開されている。
English
This paper presents ScaleCap, an inference-time scalable image captioning
strategy that generates comprehensive and detailed image captions. The key
challenges of high-quality image captioning lie in the inherent biases of
LVLMs: multimodal bias resulting in imbalanced descriptive granularity,
offering detailed accounts of some elements while merely skimming over others;
linguistic bias leading to hallucinated descriptions of non-existent objects.
To address these issues, we propose a scalable debiased captioning strategy,
which continuously enriches and calibrates the caption with increased inference
budget. Specifically, we propose two novel components: heuristic question
answering and contrastive sentence rating. The former generates
content-specific questions based on the image and answers them to progressively
inject relevant information into the caption. The latter employs sentence-level
offline contrastive decoding to effectively identify and eliminate
hallucinations caused by linguistic biases. With increased inference cost, more
heuristic questions are raised by ScaleCap to progressively capture additional
visual details, generating captions that are more accurate, balanced, and
informative. Extensive modality alignment experiments demonstrate the
effectiveness of ScaleCap. Annotating 450K images with ScaleCap and using them
for LVLM pretraining leads to consistent performance gains across 11 widely
used benchmarks. Furthermore, ScaleCap showcases superb richness and fidelity
of generated captions with two additional tasks: replacing images with captions
in VQA task, and reconstructing images from captions to assess semantic
coverage. Code is available at https://github.com/Cooperx521/ScaleCap.