ChatPaper.aiChatPaper

ScaleCap: Масштабируемое создание описаний изображений во время вывода с помощью двухмодального устранения смещений

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

June 24, 2025
Авторы: Long Xing, Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI

Аннотация

В данной статье представлена стратегия ScaleCap для масштабируемого создания подписей к изображениям на этапе вывода, которая генерирует всесторонние и детализированные описания изображений. Основные проблемы высококачественного создания подписей связаны с внутренними предубеждениями LVLM (моделей, работающих с мультимодальными данными): мультимодальное предубеждение, приводящее к несбалансированной гранулярности описаний, когда одни элементы описываются подробно, а другие лишь упоминаются; лингвистическое предубеждение, вызывающее галлюцинации в виде описаний несуществующих объектов. Для решения этих проблем мы предлагаем масштабируемую стратегию создания подписей с устранением предубеждений, которая постепенно обогащает и калибрует описание с увеличением бюджета вывода. В частности, мы предлагаем два новых компонента: эвристическое ответы на вопросы и контрастное оценивание предложений. Первый компонент генерирует вопросы, специфичные для содержания изображения, и отвечает на них, чтобы постепенно добавлять релевантную информацию в описание. Второй компонент использует оффлайн-контрастное декодирование на уровне предложений для эффективного выявления и устранения галлюцинаций, вызванных лингвистическими предубеждениями. С увеличением затрат на вывод ScaleCap задает больше эвристических вопросов, чтобы постепенно захватывать дополнительные визуальные детали, создавая более точные, сбалансированные и информативные подписи. Эксперименты по выравниванию модальностей демонстрируют эффективность ScaleCap. Аннотирование 450 тысяч изображений с использованием ScaleCap и их применение для предварительного обучения LVLM приводит к устойчивому улучшению производительности на 11 широко используемых бенчмарках. Кроме того, ScaleCap демонстрирует превосходное богатство и точность генерируемых подписей в двух дополнительных задачах: замене изображений на подписи в задаче VQA и реконструкции изображений из подписей для оценки семантического охвата. Код доступен по адресу https://github.com/Cooperx521/ScaleCap.
English
This paper presents ScaleCap, an inference-time scalable image captioning strategy that generates comprehensive and detailed image captions. The key challenges of high-quality image captioning lie in the inherent biases of LVLMs: multimodal bias resulting in imbalanced descriptive granularity, offering detailed accounts of some elements while merely skimming over others; linguistic bias leading to hallucinated descriptions of non-existent objects. To address these issues, we propose a scalable debiased captioning strategy, which continuously enriches and calibrates the caption with increased inference budget. Specifically, we propose two novel components: heuristic question answering and contrastive sentence rating. The former generates content-specific questions based on the image and answers them to progressively inject relevant information into the caption. The latter employs sentence-level offline contrastive decoding to effectively identify and eliminate hallucinations caused by linguistic biases. With increased inference cost, more heuristic questions are raised by ScaleCap to progressively capture additional visual details, generating captions that are more accurate, balanced, and informative. Extensive modality alignment experiments demonstrate the effectiveness of ScaleCap. Annotating 450K images with ScaleCap and using them for LVLM pretraining leads to consistent performance gains across 11 widely used benchmarks. Furthermore, ScaleCap showcases superb richness and fidelity of generated captions with two additional tasks: replacing images with captions in VQA task, and reconstructing images from captions to assess semantic coverage. Code is available at https://github.com/Cooperx521/ScaleCap.
PDF231June 25, 2025