ChatPaper.aiChatPaper

ScaleCap: Geração Escalável de Legendas de Imagens no Momento da Inferência via Eliminação de Viés de Dupla Modalidade

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

June 24, 2025
Autores: Long Xing, Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI

Resumo

Este artigo apresenta o ScaleCap, uma estratégia escalável de geração de legendas para imagens em tempo de inferência que produz descrições abrangentes e detalhadas. Os principais desafios da geração de legendas de alta qualidade residem nos vieses inerentes dos LVLMs (Large Vision-Language Models): o viés multimodal resulta em granularidade descritiva desequilibrada, oferecendo relatos detalhados de alguns elementos enquanto apenas menciona superficialmente outros; o viés linguístico leva a descrições alucinadas de objetos inexistentes. Para abordar esses problemas, propomos uma estratégia escalável de geração de legendas com redução de viés, que enriquece e calibra continuamente a legenda com o aumento do orçamento de inferência. Especificamente, propomos dois novos componentes: resposta heurística a perguntas e avaliação contrastiva de sentenças. O primeiro gera perguntas específicas com base na imagem e as responde para injetar progressivamente informações relevantes na legenda. O segundo emprega decodificação contrastiva offline em nível de sentença para identificar e eliminar efetivamente alucinações causadas por vieses linguísticos. Com o aumento do custo de inferência, o ScaleCap formula mais perguntas heurísticas para capturar progressivamente detalhes visuais adicionais, gerando legendas mais precisas, equilibradas e informativas. Experimentos extensivos de alinhamento de modalidades demonstram a eficácia do ScaleCap. A anotação de 450 mil imagens com o ScaleCap e seu uso no pré-treinamento de LVLMs resulta em ganhos consistentes de desempenho em 11 benchmarks amplamente utilizados. Além disso, o ScaleCap demonstra excelente riqueza e fidelidade das legendas geradas em duas tarefas adicionais: substituir imagens por legendas em tarefas de VQA (Visual Question Answering) e reconstruir imagens a partir de legendas para avaliar a cobertura semântica. O código está disponível em https://github.com/Cooperx521/ScaleCap.
English
This paper presents ScaleCap, an inference-time scalable image captioning strategy that generates comprehensive and detailed image captions. The key challenges of high-quality image captioning lie in the inherent biases of LVLMs: multimodal bias resulting in imbalanced descriptive granularity, offering detailed accounts of some elements while merely skimming over others; linguistic bias leading to hallucinated descriptions of non-existent objects. To address these issues, we propose a scalable debiased captioning strategy, which continuously enriches and calibrates the caption with increased inference budget. Specifically, we propose two novel components: heuristic question answering and contrastive sentence rating. The former generates content-specific questions based on the image and answers them to progressively inject relevant information into the caption. The latter employs sentence-level offline contrastive decoding to effectively identify and eliminate hallucinations caused by linguistic biases. With increased inference cost, more heuristic questions are raised by ScaleCap to progressively capture additional visual details, generating captions that are more accurate, balanced, and informative. Extensive modality alignment experiments demonstrate the effectiveness of ScaleCap. Annotating 450K images with ScaleCap and using them for LVLM pretraining leads to consistent performance gains across 11 widely used benchmarks. Furthermore, ScaleCap showcases superb richness and fidelity of generated captions with two additional tasks: replacing images with captions in VQA task, and reconstructing images from captions to assess semantic coverage. Code is available at https://github.com/Cooperx521/ScaleCap.
PDF261June 25, 2025