ChatPaper.aiChatPaper

RICO: Melhorando a Precisão e a Completude na Recaptura de Imagens por meio de Reconstrução Visual

RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction

May 28, 2025
Autores: Yuchi Wang, Yishuo Cai, Shuhuai Ren, Sihan Yang, Linli Yao, Yuanxin Liu, Yuanxing Zhang, Pengfei Wan, Xu Sun
cs.AI

Resumo

A reescrita de legendas de imagens é amplamente utilizada para gerar conjuntos de dados de treinamento com qualidade aprimorada para diversas tarefas multimodais. Os métodos existentes de reescrita geralmente dependem de modelos de linguagem multimodal de grande escala (MLLMs) para aprimorar descrições textuais, mas frequentemente sofrem com imprecisões devido a alucinações e incompletude causadas pela ausência de detalhes refinados. Para abordar essas limitações, propomos o RICO, uma nova estrutura que refina legendas por meio de reconstrução visual. Especificamente, utilizamos um modelo de texto para imagem para reconstruir uma legenda em uma imagem de referência e solicitamos que um MLLM identifique discrepâncias entre as imagens original e reconstruída para refinar a legenda. Esse processo é realizado iterativamente, promovendo progressivamente a geração de descrições mais fiéis e abrangentes. Para mitigar o custo computacional adicional induzido pelo processo iterativo, introduzimos o RICO-Flash, que aprende a gerar legendas como o RICO usando DPO. Experimentos extensivos demonstram que nossa abordagem melhora significativamente a precisão e a completude das legendas, superando a maioria das baselines em aproximadamente 10% tanto no CapsBench quanto no CompreCap. O código foi liberado em https://github.com/wangyuchi369/RICO.
English
Image recaptioning is widely used to generate training datasets with enhanced quality for various multimodal tasks. Existing recaptioning methods typically rely on powerful multimodal large language models (MLLMs) to enhance textual descriptions, but often suffer from inaccuracies due to hallucinations and incompleteness caused by missing fine-grained details. To address these limitations, we propose RICO, a novel framework that refines captions through visual reconstruction. Specifically, we leverage a text-to-image model to reconstruct a caption into a reference image, and prompt an MLLM to identify discrepancies between the original and reconstructed images to refine the caption. This process is performed iteratively, further progressively promoting the generation of more faithful and comprehensive descriptions. To mitigate the additional computational cost induced by the iterative process, we introduce RICO-Flash, which learns to generate captions like RICO using DPO. Extensive experiments demonstrate that our approach significantly improves caption accuracy and completeness, outperforms most baselines by approximately 10% on both CapsBench and CompreCap. Code released at https://github.com/wangyuchi369/RICO.
PDF82May 29, 2025