ScaleCap: Generazione Scalabile di Didascalie per Immagini al Momento dell'Inferenza tramite Debiasing a Doppia Modalità

Abstract

Questo articolo presenta ScaleCap, una strategia scalabile per la generazione di didascalie di immagini durante l'inferenza, che produce descrizioni complete e dettagliate. Le principali sfide della generazione di didascalie di alta qualità risiedono nei bias intrinseci dei LVLM: il bias multimodale che porta a una granularità descrittiva squilibrata, offrendo resoconti dettagliati di alcuni elementi mentre tralascia superficialmente altri; e il bias linguistico che causa descrizioni allucinate di oggetti inesistenti. Per affrontare questi problemi, proponiamo una strategia scalabile e debiased per la generazione di didascalie, che arricchisce e calibra continuamente la didascalia con un aumento del budget di inferenza. Nello specifico, introduciamo due componenti innovative: il question answering euristico e il rating contrastivo a livello di frase. Il primo genera domande specifiche basate sull'immagine e le risponde per iniettare progressivamente informazioni rilevanti nella didascalia. Il secondo utilizza il decoding contrastivo offline a livello di frase per identificare ed eliminare efficacemente le allucinazioni causate dai bias linguistici. Con un aumento del costo di inferenza, ScaleCap solleva più domande euristiche per catturare progressivamente dettagli visivi aggiuntivi, generando didascalie più accurate, bilanciate e informative. Esperimenti estesi di allineamento multimodale dimostrano l'efficacia di ScaleCap. L'annotazione di 450K immagini con ScaleCap e il loro utilizzo per il pretraining di LVLM portano a miglioramenti consistenti delle prestazioni su 11 benchmark ampiamente utilizzati. Inoltre, ScaleCap mostra una ricchezza e fedeltà eccezionali delle didascalie generate con due ulteriori compiti: sostituire le immagini con didascalie nel task di VQA e ricostruire immagini dalle didascalie per valutare la copertura semantica. Il codice è disponibile all'indirizzo https://github.com/Cooperx521/ScaleCap.

English

This paper presents ScaleCap, an inference-time scalable image captioning strategy that generates comprehensive and detailed image captions. The key challenges of high-quality image captioning lie in the inherent biases of LVLMs: multimodal bias resulting in imbalanced descriptive granularity, offering detailed accounts of some elements while merely skimming over others; linguistic bias leading to hallucinated descriptions of non-existent objects. To address these issues, we propose a scalable debiased captioning strategy, which continuously enriches and calibrates the caption with increased inference budget. Specifically, we propose two novel components: heuristic question answering and contrastive sentence rating. The former generates content-specific questions based on the image and answers them to progressively inject relevant information into the caption. The latter employs sentence-level offline contrastive decoding to effectively identify and eliminate hallucinations caused by linguistic biases. With increased inference cost, more heuristic questions are raised by ScaleCap to progressively capture additional visual details, generating captions that are more accurate, balanced, and informative. Extensive modality alignment experiments demonstrate the effectiveness of ScaleCap. Annotating 450K images with ScaleCap and using them for LVLM pretraining leads to consistent performance gains across 11 widely used benchmarks. Furthermore, ScaleCap showcases superb richness and fidelity of generated captions with two additional tasks: replacing images with captions in VQA task, and reconstructing images from captions to assess semantic coverage. Code is available at https://github.com/Cooperx521/ScaleCap.

ScaleCap: Generazione Scalabile di Didascalie per Immagini al Momento dell'Inferenza tramite Debiasing a Doppia Modalità

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

Abstract

Support