ChatPaper.aiChatPaper

ScaleCap: Inferenzzeit-skalierbare Bildbeschriftung durch Dual-Modality-Debiasing

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

June 24, 2025
Autoren: Long Xing, Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI

Zusammenfassung

Dieses Papier stellt ScaleCap vor, eine skalierbare Strategie zur Bildbeschreibung zur Inferenzzeit, die umfassende und detaillierte Bildbeschreibungen generiert. Die zentralen Herausforderungen bei hochwertiger Bildbeschreibung liegen in den inhärenten Verzerrungen von LVLMs (Large Vision-Language Models): multimodale Verzerrungen, die zu einer unausgewogenen Beschreibungsgranularität führen, indem sie einige Elemente detailliert darstellen, während andere nur oberflächlich behandelt werden; linguistische Verzerrungen, die zu halluzinierten Beschreibungen nicht existierender Objekte führen. Um diese Probleme zu adressieren, schlagen wir eine skalierbare, entzerrte Beschreibungsstrategie vor, die die Bildbeschreibung kontinuierlich mit zunehmendem Inferenzbudget anreichert und kalibriert. Konkret schlagen wir zwei neuartige Komponenten vor: heuristisches Frage-Antworten und kontrastive Satzbewertung. Erstere generiert inhaltsbezogene Fragen basierend auf dem Bild und beantwortet diese, um schrittweise relevante Informationen in die Beschreibung einzufügen. Letztere verwendet satzbasierte, offline kontrastive Dekodierung, um effektiv Halluzinationen, die durch linguistische Verzerrungen verursacht werden, zu identifizieren und zu eliminieren. Mit steigenden Inferenzkosten stellt ScaleCap mehr heuristische Fragen, um zusätzliche visuelle Details schrittweise zu erfassen und so Beschreibungen zu generieren, die genauer, ausgewogener und informativer sind. Umfangreiche Experimente zur Modalitätsausrichtung demonstrieren die Wirksamkeit von ScaleCap. Die Annotation von 450.000 Bildern mit ScaleCap und deren Verwendung für das Pretraining von LVLMs führt zu konsistenten Leistungssteigerungen über 11 weit verbreitete Benchmarks hinweg. Darüber hinaus zeigt ScaleCap eine hervorragende Reichhaltigkeit und Treue der generierten Beschreibungen in zwei zusätzlichen Aufgaben: dem Ersetzen von Bildern durch Beschreibungen in VQA-Aufgaben (Visual Question Answering) und der Rekonstruktion von Bildern aus Beschreibungen zur Bewertung der semantischen Abdeckung. Der Code ist verfügbar unter https://github.com/Cooperx521/ScaleCap.
English
This paper presents ScaleCap, an inference-time scalable image captioning strategy that generates comprehensive and detailed image captions. The key challenges of high-quality image captioning lie in the inherent biases of LVLMs: multimodal bias resulting in imbalanced descriptive granularity, offering detailed accounts of some elements while merely skimming over others; linguistic bias leading to hallucinated descriptions of non-existent objects. To address these issues, we propose a scalable debiased captioning strategy, which continuously enriches and calibrates the caption with increased inference budget. Specifically, we propose two novel components: heuristic question answering and contrastive sentence rating. The former generates content-specific questions based on the image and answers them to progressively inject relevant information into the caption. The latter employs sentence-level offline contrastive decoding to effectively identify and eliminate hallucinations caused by linguistic biases. With increased inference cost, more heuristic questions are raised by ScaleCap to progressively capture additional visual details, generating captions that are more accurate, balanced, and informative. Extensive modality alignment experiments demonstrate the effectiveness of ScaleCap. Annotating 450K images with ScaleCap and using them for LVLM pretraining leads to consistent performance gains across 11 widely used benchmarks. Furthermore, ScaleCap showcases superb richness and fidelity of generated captions with two additional tasks: replacing images with captions in VQA task, and reconstructing images from captions to assess semantic coverage. Code is available at https://github.com/Cooperx521/ScaleCap.
PDF231June 25, 2025