ChatPaper.aiChatPaper

RICO : Amélioration de la précision et de l'exhaustivité dans la recaption d'images via la reconstruction visuelle

RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction

May 28, 2025
Auteurs: Yuchi Wang, Yishuo Cai, Shuhuai Ren, Sihan Yang, Linli Yao, Yuanxin Liu, Yuanxing Zhang, Pengfei Wan, Xu Sun
cs.AI

Résumé

La recaptioning d'images est largement utilisé pour générer des ensembles de données d'entraînement de qualité améliorée pour diverses tâches multimodales. Les méthodes de recaptioning existantes reposent généralement sur des modèles de langage multimodaux puissants (MLLMs) pour enrichir les descriptions textuelles, mais souffrent souvent d'inexactitudes dues à des hallucinations et à une incomplétude causée par l'absence de détails fins. Pour pallier ces limitations, nous proposons RICO, un nouveau cadre qui affine les légendes par reconstruction visuelle. Plus précisément, nous utilisons un modèle texte-à-image pour reconstruire une légende en une image de référence, et incitons un MLLM à identifier les écarts entre l'image originale et l'image reconstruite afin d'affiner la légende. Ce processus est effectué de manière itérative, favorisant progressivement la génération de descriptions plus fidèles et complètes. Pour atténuer le coût computationnel supplémentaire induit par le processus itératif, nous introduisons RICO-Flash, qui apprend à générer des légendes comme RICO en utilisant DPO. Des expériences approfondies démontrent que notre approche améliore significativement la précision et l'exhaustivité des légendes, surpassant la plupart des méthodes de référence d'environ 10 % sur CapsBench et CompreCap. Le code est disponible à l'adresse https://github.com/wangyuchi369/RICO.
English
Image recaptioning is widely used to generate training datasets with enhanced quality for various multimodal tasks. Existing recaptioning methods typically rely on powerful multimodal large language models (MLLMs) to enhance textual descriptions, but often suffer from inaccuracies due to hallucinations and incompleteness caused by missing fine-grained details. To address these limitations, we propose RICO, a novel framework that refines captions through visual reconstruction. Specifically, we leverage a text-to-image model to reconstruct a caption into a reference image, and prompt an MLLM to identify discrepancies between the original and reconstructed images to refine the caption. This process is performed iteratively, further progressively promoting the generation of more faithful and comprehensive descriptions. To mitigate the additional computational cost induced by the iterative process, we introduce RICO-Flash, which learns to generate captions like RICO using DPO. Extensive experiments demonstrate that our approach significantly improves caption accuracy and completeness, outperforms most baselines by approximately 10% on both CapsBench and CompreCap. Code released at https://github.com/wangyuchi369/RICO.

Summary

AI-Generated Summary

PDF72May 29, 2025