ScaleCap : Génération d'images légendées scalable au moment de l'inférence via un débiaisage en double modalité

papers.abstract

Cet article présente ScaleCap, une stratégie de génération de légendes d'images scalable au moment de l'inférence, qui produit des descriptions d'images complètes et détaillées. Les principaux défis de la génération de légendes de haute qualité résident dans les biais inhérents des LVLM (modèles de langage et vision multimodaux) : un biais multimodal entraînant une granularité descriptive déséquilibrée, offrant des comptes rendus détaillés de certains éléments tout en survolant d'autres ; un biais linguistique conduisant à des descriptions hallucinées d'objets inexistants. Pour résoudre ces problèmes, nous proposons une stratégie de génération de légendes débiaisée et scalable, qui enrichit et calibre continuellement la légende avec un budget d'inférence accru. Plus précisément, nous proposons deux composants novateurs : la réponse heuristique à des questions et l'évaluation contrastive de phrases. Le premier génère des questions spécifiques au contenu basées sur l'image et y répond pour injecter progressivement des informations pertinentes dans la légende. Le second utilise un décodage contrastif hors ligne au niveau de la phrase pour identifier et éliminer efficacement les hallucinations causées par les biais linguistiques. Avec un coût d'inférence accru, ScaleCap pose davantage de questions heuristiques pour capturer progressivement des détails visuels supplémentaires, générant ainsi des légendes plus précises, équilibrées et informatives. Des expériences approfondies d'alignement multimodal démontrent l'efficacité de ScaleCap. L'annotation de 450 000 images avec ScaleCap et leur utilisation pour le pré-entraînement de LVLM entraîne des gains de performance constants sur 11 benchmarks largement utilisés. De plus, ScaleCap démontre une richesse et une fidélité exceptionnelles des légendes générées avec deux tâches supplémentaires : remplacer les images par des légendes dans une tâche de VQA, et reconstruire des images à partir de légendes pour évaluer la couverture sémantique. Le code est disponible à l'adresse https://github.com/Cooperx521/ScaleCap.

English

This paper presents ScaleCap, an inference-time scalable image captioning strategy that generates comprehensive and detailed image captions. The key challenges of high-quality image captioning lie in the inherent biases of LVLMs: multimodal bias resulting in imbalanced descriptive granularity, offering detailed accounts of some elements while merely skimming over others; linguistic bias leading to hallucinated descriptions of non-existent objects. To address these issues, we propose a scalable debiased captioning strategy, which continuously enriches and calibrates the caption with increased inference budget. Specifically, we propose two novel components: heuristic question answering and contrastive sentence rating. The former generates content-specific questions based on the image and answers them to progressively inject relevant information into the caption. The latter employs sentence-level offline contrastive decoding to effectively identify and eliminate hallucinations caused by linguistic biases. With increased inference cost, more heuristic questions are raised by ScaleCap to progressively capture additional visual details, generating captions that are more accurate, balanced, and informative. Extensive modality alignment experiments demonstrate the effectiveness of ScaleCap. Annotating 450K images with ScaleCap and using them for LVLM pretraining leads to consistent performance gains across 11 widely used benchmarks. Furthermore, ScaleCap showcases superb richness and fidelity of generated captions with two additional tasks: replacing images with captions in VQA task, and reconstructing images from captions to assess semantic coverage. Code is available at https://github.com/Cooperx521/ScaleCap.

ScaleCap : Génération d'images légendées scalable au moment de l'inférence via un débiaisage en double modalité

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

papers.abstract

Support