ScaleCap: Schaalbaar beeldbeschrijving tijdens inferentie via dual-module debiasing
ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing
June 24, 2025
Auteurs: Long Xing, Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI
Samenvatting
Dit artikel presenteert ScaleCap, een schaalbare strategie voor het genereren van beeldbeschrijvingen tijdens de inferentiefase, die uitgebreide en gedetailleerde beeldbeschrijvingen produceert. De belangrijkste uitdagingen bij het maken van hoogwaardige beeldbeschrijvingen liggen in de inherente vooroordelen van LVLM's (Large Vision-Language Models): multimodale vooroordelen die resulteren in een ongelijke beschrijvingsgranulariteit, waarbij sommige elementen gedetailleerd worden beschreven terwijl andere slechts oppervlakkig worden behandeld; en linguïstische vooroordelen die leiden tot gehallucineerde beschrijvingen van niet-bestaande objecten. Om deze problemen aan te pakken, stellen we een schaalbare strategie voor het debiasing van beeldbeschrijvingen voor, waarbij de beschrijving continu wordt verrijkt en gekalibreerd met een toenemend inferentiebudget. Specifiek introduceren we twee nieuwe componenten: heuristische vraagbeantwoording en contrastieve zinsbeoordeling. De eerste genereert inhoudsspecifieke vragen op basis van de afbeelding en beantwoordt deze om geleidelijk relevante informatie in de beschrijving te injecteren. De tweede maakt gebruik van offline contrastief decoderen op zinsniveau om hallucinaties veroorzaakt door linguïstische vooroordelen effectief te identificeren en te elimineren. Met een hogere inferentiekosten worden er meer heuristische vragen gesteld door ScaleCap om geleidelijk aanvullende visuele details vast te leggen, waardoor beschrijvingen worden gegenereerd die nauwkeuriger, evenwichtiger en informatiever zijn. Uitgebreide experimenten met modaliteitsalignering demonstreren de effectiviteit van ScaleCap. Het annoteren van 450K afbeeldingen met ScaleCap en het gebruik ervan voor LVLM-pretraining leidt tot consistente prestatieverbeteringen op 11 veelgebruikte benchmarks. Bovendien toont ScaleCap een uitstekende rijkdom en betrouwbaarheid van gegenereerde beschrijvingen met twee aanvullende taken: het vervangen van afbeeldingen door beschrijvingen in VQA-taken, en het reconstrueren van afbeeldingen uit beschrijvingen om de semantische dekking te beoordelen. De code is beschikbaar op https://github.com/Cooperx521/ScaleCap.
English
This paper presents ScaleCap, an inference-time scalable image captioning
strategy that generates comprehensive and detailed image captions. The key
challenges of high-quality image captioning lie in the inherent biases of
LVLMs: multimodal bias resulting in imbalanced descriptive granularity,
offering detailed accounts of some elements while merely skimming over others;
linguistic bias leading to hallucinated descriptions of non-existent objects.
To address these issues, we propose a scalable debiased captioning strategy,
which continuously enriches and calibrates the caption with increased inference
budget. Specifically, we propose two novel components: heuristic question
answering and contrastive sentence rating. The former generates
content-specific questions based on the image and answers them to progressively
inject relevant information into the caption. The latter employs sentence-level
offline contrastive decoding to effectively identify and eliminate
hallucinations caused by linguistic biases. With increased inference cost, more
heuristic questions are raised by ScaleCap to progressively capture additional
visual details, generating captions that are more accurate, balanced, and
informative. Extensive modality alignment experiments demonstrate the
effectiveness of ScaleCap. Annotating 450K images with ScaleCap and using them
for LVLM pretraining leads to consistent performance gains across 11 widely
used benchmarks. Furthermore, ScaleCap showcases superb richness and fidelity
of generated captions with two additional tasks: replacing images with captions
in VQA task, and reconstructing images from captions to assess semantic
coverage. Code is available at https://github.com/Cooperx521/ScaleCap.