ScaleCap : Génération d'images légendées scalable au moment de l'inférence via un débiaisage en double modalité
ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing
June 24, 2025
Auteurs: Long Xing, Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI
Résumé
Cet article présente ScaleCap, une stratégie de génération de légendes d'images scalable au moment de l'inférence, qui produit des descriptions d'images complètes et détaillées. Les principaux défis de la génération de légendes de haute qualité résident dans les biais inhérents des LVLM (modèles de langage et vision multimodaux) : un biais multimodal entraînant une granularité descriptive déséquilibrée, offrant des comptes rendus détaillés de certains éléments tout en survolant d'autres ; un biais linguistique conduisant à des descriptions hallucinées d'objets inexistants. Pour résoudre ces problèmes, nous proposons une stratégie de génération de légendes débiaisée et scalable, qui enrichit et calibre continuellement la légende avec un budget d'inférence accru. Plus précisément, nous proposons deux composants novateurs : la réponse heuristique à des questions et l'évaluation contrastive de phrases. Le premier génère des questions spécifiques au contenu basées sur l'image et y répond pour injecter progressivement des informations pertinentes dans la légende. Le second utilise un décodage contrastif hors ligne au niveau de la phrase pour identifier et éliminer efficacement les hallucinations causées par les biais linguistiques. Avec un coût d'inférence accru, ScaleCap pose davantage de questions heuristiques pour capturer progressivement des détails visuels supplémentaires, générant ainsi des légendes plus précises, équilibrées et informatives. Des expériences approfondies d'alignement multimodal démontrent l'efficacité de ScaleCap. L'annotation de 450 000 images avec ScaleCap et leur utilisation pour le pré-entraînement de LVLM entraîne des gains de performance constants sur 11 benchmarks largement utilisés. De plus, ScaleCap démontre une richesse et une fidélité exceptionnelles des légendes générées avec deux tâches supplémentaires : remplacer les images par des légendes dans une tâche de VQA, et reconstruire des images à partir de légendes pour évaluer la couverture sémantique. Le code est disponible à l'adresse https://github.com/Cooperx521/ScaleCap.
English
This paper presents ScaleCap, an inference-time scalable image captioning
strategy that generates comprehensive and detailed image captions. The key
challenges of high-quality image captioning lie in the inherent biases of
LVLMs: multimodal bias resulting in imbalanced descriptive granularity,
offering detailed accounts of some elements while merely skimming over others;
linguistic bias leading to hallucinated descriptions of non-existent objects.
To address these issues, we propose a scalable debiased captioning strategy,
which continuously enriches and calibrates the caption with increased inference
budget. Specifically, we propose two novel components: heuristic question
answering and contrastive sentence rating. The former generates
content-specific questions based on the image and answers them to progressively
inject relevant information into the caption. The latter employs sentence-level
offline contrastive decoding to effectively identify and eliminate
hallucinations caused by linguistic biases. With increased inference cost, more
heuristic questions are raised by ScaleCap to progressively capture additional
visual details, generating captions that are more accurate, balanced, and
informative. Extensive modality alignment experiments demonstrate the
effectiveness of ScaleCap. Annotating 450K images with ScaleCap and using them
for LVLM pretraining leads to consistent performance gains across 11 widely
used benchmarks. Furthermore, ScaleCap showcases superb richness and fidelity
of generated captions with two additional tasks: replacing images with captions
in VQA task, and reconstructing images from captions to assess semantic
coverage. Code is available at https://github.com/Cooperx521/ScaleCap.