RICO: Mejora de la Precisión y Completitud en la Recaptura de Imágenes mediante Reconstrucción Visual
RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction
May 28, 2025
Autores: Yuchi Wang, Yishuo Cai, Shuhuai Ren, Sihan Yang, Linli Yao, Yuanxin Liu, Yuanxing Zhang, Pengfei Wan, Xu Sun
cs.AI
Resumen
La recaptura de imágenes se utiliza ampliamente para generar conjuntos de datos de entrenamiento con calidad mejorada para diversas tareas multimodales. Los métodos de recaptura existentes suelen depender de modelos de lenguaje multimodal de gran capacidad (MLLMs, por sus siglas en inglés) para mejorar las descripciones textuales, pero a menudo presentan imprecisiones debido a alucinaciones e incompletitud causadas por la falta de detalles finos. Para abordar estas limitaciones, proponemos RICO, un marco novedoso que refina las leyendas mediante la reconstrucción visual. Específicamente, aprovechamos un modelo de texto a imagen para reconstruir una leyenda en una imagen de referencia, y solicitamos a un MLLM que identifique discrepancias entre la imagen original y la reconstruida para refinar la leyenda. Este proceso se realiza de manera iterativa, promoviendo progresivamente la generación de descripciones más fieles y completas. Para mitigar el costo computacional adicional inducido por el proceso iterativo, introducimos RICO-Flash, que aprende a generar leyendas como RICO utilizando DPO. Experimentos extensos demuestran que nuestro enfoque mejora significativamente la precisión y completitud de las leyendas, superando a la mayoría de las líneas base en aproximadamente un 10% tanto en CapsBench como en CompreCap. El código se ha publicado en https://github.com/wangyuchi369/RICO.
English
Image recaptioning is widely used to generate training datasets with enhanced
quality for various multimodal tasks. Existing recaptioning methods typically
rely on powerful multimodal large language models (MLLMs) to enhance textual
descriptions, but often suffer from inaccuracies due to hallucinations and
incompleteness caused by missing fine-grained details. To address these
limitations, we propose RICO, a novel framework that refines captions through
visual reconstruction. Specifically, we leverage a text-to-image model to
reconstruct a caption into a reference image, and prompt an MLLM to identify
discrepancies between the original and reconstructed images to refine the
caption. This process is performed iteratively, further progressively promoting
the generation of more faithful and comprehensive descriptions. To mitigate the
additional computational cost induced by the iterative process, we introduce
RICO-Flash, which learns to generate captions like RICO using DPO. Extensive
experiments demonstrate that our approach significantly improves caption
accuracy and completeness, outperforms most baselines by approximately 10% on
both CapsBench and CompreCap. Code released at
https://github.com/wangyuchi369/RICO.Summary
AI-Generated Summary