ScaleCap: Масштабируемое создание описаний изображений во время вывода с помощью двухмодального устранения смещений
ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing
June 24, 2025
Авторы: Long Xing, Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI
Аннотация
В данной статье представлена стратегия ScaleCap для масштабируемого создания подписей к изображениям на этапе вывода, которая генерирует всесторонние и детализированные описания изображений. Основные проблемы высококачественного создания подписей связаны с внутренними предубеждениями LVLM (моделей, работающих с мультимодальными данными): мультимодальное предубеждение, приводящее к несбалансированной гранулярности описаний, когда одни элементы описываются подробно, а другие лишь упоминаются; лингвистическое предубеждение, вызывающее галлюцинации в виде описаний несуществующих объектов. Для решения этих проблем мы предлагаем масштабируемую стратегию создания подписей с устранением предубеждений, которая постепенно обогащает и калибрует описание с увеличением бюджета вывода. В частности, мы предлагаем два новых компонента: эвристическое ответы на вопросы и контрастное оценивание предложений. Первый компонент генерирует вопросы, специфичные для содержания изображения, и отвечает на них, чтобы постепенно добавлять релевантную информацию в описание. Второй компонент использует оффлайн-контрастное декодирование на уровне предложений для эффективного выявления и устранения галлюцинаций, вызванных лингвистическими предубеждениями. С увеличением затрат на вывод ScaleCap задает больше эвристических вопросов, чтобы постепенно захватывать дополнительные визуальные детали, создавая более точные, сбалансированные и информативные подписи. Эксперименты по выравниванию модальностей демонстрируют эффективность ScaleCap. Аннотирование 450 тысяч изображений с использованием ScaleCap и их применение для предварительного обучения LVLM приводит к устойчивому улучшению производительности на 11 широко используемых бенчмарках. Кроме того, ScaleCap демонстрирует превосходное богатство и точность генерируемых подписей в двух дополнительных задачах: замене изображений на подписи в задаче VQA и реконструкции изображений из подписей для оценки семантического охвата. Код доступен по адресу https://github.com/Cooperx521/ScaleCap.
English
This paper presents ScaleCap, an inference-time scalable image captioning
strategy that generates comprehensive and detailed image captions. The key
challenges of high-quality image captioning lie in the inherent biases of
LVLMs: multimodal bias resulting in imbalanced descriptive granularity,
offering detailed accounts of some elements while merely skimming over others;
linguistic bias leading to hallucinated descriptions of non-existent objects.
To address these issues, we propose a scalable debiased captioning strategy,
which continuously enriches and calibrates the caption with increased inference
budget. Specifically, we propose two novel components: heuristic question
answering and contrastive sentence rating. The former generates
content-specific questions based on the image and answers them to progressively
inject relevant information into the caption. The latter employs sentence-level
offline contrastive decoding to effectively identify and eliminate
hallucinations caused by linguistic biases. With increased inference cost, more
heuristic questions are raised by ScaleCap to progressively capture additional
visual details, generating captions that are more accurate, balanced, and
informative. Extensive modality alignment experiments demonstrate the
effectiveness of ScaleCap. Annotating 450K images with ScaleCap and using them
for LVLM pretraining leads to consistent performance gains across 11 widely
used benchmarks. Furthermore, ScaleCap showcases superb richness and fidelity
of generated captions with two additional tasks: replacing images with captions
in VQA task, and reconstructing images from captions to assess semantic
coverage. Code is available at https://github.com/Cooperx521/ScaleCap.