ChatPaper.aiChatPaper

ScaleCap: Generación Escalable de Subtítulos de Imágenes en Tiempo de Inferencia mediante Debiasing de Doble Modalidad

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

June 24, 2025
Autores: Long Xing, Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI

Resumen

Este artículo presenta ScaleCap, una estrategia escalable de generación de descripciones de imágenes en tiempo de inferencia que produce descripciones completas y detalladas. Los principales desafíos de la generación de alta calidad de descripciones de imágenes radican en los sesgos inherentes de los modelos de lenguaje y visión multimodal (LVLM): el sesgo multimodal resulta en una granularidad descriptiva desequilibrada, ofreciendo descripciones detalladas de algunos elementos mientras apenas menciona otros; el sesgo lingüístico conduce a descripciones alucinadas de objetos inexistentes. Para abordar estos problemas, proponemos una estrategia escalable de generación de descripciones sin sesgos, que enriquece y calibra continuamente la descripción con un mayor presupuesto de inferencia. Específicamente, proponemos dos componentes novedosos: respuesta heurística a preguntas y calificación contrastiva de oraciones. El primero genera preguntas específicas basadas en la imagen y las responde para inyectar progresivamente información relevante en la descripción. El segundo emplea decodificación contrastiva offline a nivel de oración para identificar y eliminar eficazmente las alucinaciones causadas por sesgos lingüísticos. Con un mayor costo de inferencia, ScaleCap plantea más preguntas heurísticas para capturar progresivamente detalles visuales adicionales, generando descripciones más precisas, equilibradas e informativas. Experimentos extensos de alineación de modalidades demuestran la efectividad de ScaleCap. La anotación de 450K imágenes con ScaleCap y su uso para el preentrenamiento de LVLM conduce a mejoras consistentes en el rendimiento en 11 benchmarks ampliamente utilizados. Además, ScaleCap muestra una riqueza y fidelidad sobresalientes en las descripciones generadas con dos tareas adicionales: reemplazar imágenes con descripciones en tareas de VQA, y reconstruir imágenes a partir de descripciones para evaluar la cobertura semántica. El código está disponible en https://github.com/Cooperx521/ScaleCap.
English
This paper presents ScaleCap, an inference-time scalable image captioning strategy that generates comprehensive and detailed image captions. The key challenges of high-quality image captioning lie in the inherent biases of LVLMs: multimodal bias resulting in imbalanced descriptive granularity, offering detailed accounts of some elements while merely skimming over others; linguistic bias leading to hallucinated descriptions of non-existent objects. To address these issues, we propose a scalable debiased captioning strategy, which continuously enriches and calibrates the caption with increased inference budget. Specifically, we propose two novel components: heuristic question answering and contrastive sentence rating. The former generates content-specific questions based on the image and answers them to progressively inject relevant information into the caption. The latter employs sentence-level offline contrastive decoding to effectively identify and eliminate hallucinations caused by linguistic biases. With increased inference cost, more heuristic questions are raised by ScaleCap to progressively capture additional visual details, generating captions that are more accurate, balanced, and informative. Extensive modality alignment experiments demonstrate the effectiveness of ScaleCap. Annotating 450K images with ScaleCap and using them for LVLM pretraining leads to consistent performance gains across 11 widely used benchmarks. Furthermore, ScaleCap showcases superb richness and fidelity of generated captions with two additional tasks: replacing images with captions in VQA task, and reconstructing images from captions to assess semantic coverage. Code is available at https://github.com/Cooperx521/ScaleCap.
PDF231June 25, 2025