ScaleCap: Generazione Scalabile di Didascalie per Immagini al Momento dell'Inferenza tramite Debiasing a Doppia Modalità
ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing
June 24, 2025
Autori: Long Xing, Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI
Abstract
Questo articolo presenta ScaleCap, una strategia scalabile per la generazione di didascalie di immagini durante l'inferenza, che produce descrizioni complete e dettagliate. Le principali sfide della generazione di didascalie di alta qualità risiedono nei bias intrinseci dei LVLM: il bias multimodale che porta a una granularità descrittiva squilibrata, offrendo resoconti dettagliati di alcuni elementi mentre tralascia superficialmente altri; e il bias linguistico che causa descrizioni allucinate di oggetti inesistenti. Per affrontare questi problemi, proponiamo una strategia scalabile e debiased per la generazione di didascalie, che arricchisce e calibra continuamente la didascalia con un aumento del budget di inferenza. Nello specifico, introduciamo due componenti innovative: il question answering euristico e il rating contrastivo a livello di frase. Il primo genera domande specifiche basate sull'immagine e le risponde per iniettare progressivamente informazioni rilevanti nella didascalia. Il secondo utilizza il decoding contrastivo offline a livello di frase per identificare ed eliminare efficacemente le allucinazioni causate dai bias linguistici. Con un aumento del costo di inferenza, ScaleCap solleva più domande euristiche per catturare progressivamente dettagli visivi aggiuntivi, generando didascalie più accurate, bilanciate e informative. Esperimenti estesi di allineamento multimodale dimostrano l'efficacia di ScaleCap. L'annotazione di 450K immagini con ScaleCap e il loro utilizzo per il pretraining di LVLM portano a miglioramenti consistenti delle prestazioni su 11 benchmark ampiamente utilizzati. Inoltre, ScaleCap mostra una ricchezza e fedeltà eccezionali delle didascalie generate con due ulteriori compiti: sostituire le immagini con didascalie nel task di VQA e ricostruire immagini dalle didascalie per valutare la copertura semantica. Il codice è disponibile all'indirizzo https://github.com/Cooperx521/ScaleCap.
English
This paper presents ScaleCap, an inference-time scalable image captioning
strategy that generates comprehensive and detailed image captions. The key
challenges of high-quality image captioning lie in the inherent biases of
LVLMs: multimodal bias resulting in imbalanced descriptive granularity,
offering detailed accounts of some elements while merely skimming over others;
linguistic bias leading to hallucinated descriptions of non-existent objects.
To address these issues, we propose a scalable debiased captioning strategy,
which continuously enriches and calibrates the caption with increased inference
budget. Specifically, we propose two novel components: heuristic question
answering and contrastive sentence rating. The former generates
content-specific questions based on the image and answers them to progressively
inject relevant information into the caption. The latter employs sentence-level
offline contrastive decoding to effectively identify and eliminate
hallucinations caused by linguistic biases. With increased inference cost, more
heuristic questions are raised by ScaleCap to progressively capture additional
visual details, generating captions that are more accurate, balanced, and
informative. Extensive modality alignment experiments demonstrate the
effectiveness of ScaleCap. Annotating 450K images with ScaleCap and using them
for LVLM pretraining leads to consistent performance gains across 11 widely
used benchmarks. Furthermore, ScaleCap showcases superb richness and fidelity
of generated captions with two additional tasks: replacing images with captions
in VQA task, and reconstructing images from captions to assess semantic
coverage. Code is available at https://github.com/Cooperx521/ScaleCap.