RICO: Miglioramento della Precisione e Completezza nel Ricaptionamento di Immagini tramite Ricostruzione Visiva
RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction
May 28, 2025
Autori: Yuchi Wang, Yishuo Cai, Shuhuai Ren, Sihan Yang, Linli Yao, Yuanxin Liu, Yuanxing Zhang, Pengfei Wan, Xu Sun
cs.AI
Abstract
Il ricaptioning delle immagini è ampiamente utilizzato per generare dataset di addestramento di qualità superiore per varie attività multimodali. I metodi di ricaptioning esistenti si basano tipicamente su potenti modelli linguistici multimodali di grandi dimensioni (MLLM) per migliorare le descrizioni testuali, ma spesso soffrono di imprecisioni dovute a allucinazioni e incompletezza causate dalla mancanza di dettagli granulari. Per affrontare queste limitazioni, proponiamo RICO, un nuovo framework che perfeziona le didascalie attraverso la ricostruzione visiva. Nello specifico, sfruttiamo un modello text-to-image per ricostruire una didascalia in un'immagine di riferimento e sollecitiamo un MLLM a identificare le discrepanze tra l'immagine originale e quella ricostruita per affinare la didascalia. Questo processo viene eseguito in modo iterativo, promuovendo ulteriormente la generazione di descrizioni più fedeli e complete. Per mitigare il costo computazionale aggiuntivo indotto dal processo iterativo, introduciamo RICO-Flash, che impara a generare didascalie come RICO utilizzando DPO. Esperimenti estensivi dimostrano che il nostro approccio migliora significativamente l'accuratezza e la completezza delle didascalie, superando la maggior parte dei benchmark di circa il 10% sia su CapsBench che su CompreCap. Il codice è disponibile all'indirizzo https://github.com/wangyuchi369/RICO.
English
Image recaptioning is widely used to generate training datasets with enhanced
quality for various multimodal tasks. Existing recaptioning methods typically
rely on powerful multimodal large language models (MLLMs) to enhance textual
descriptions, but often suffer from inaccuracies due to hallucinations and
incompleteness caused by missing fine-grained details. To address these
limitations, we propose RICO, a novel framework that refines captions through
visual reconstruction. Specifically, we leverage a text-to-image model to
reconstruct a caption into a reference image, and prompt an MLLM to identify
discrepancies between the original and reconstructed images to refine the
caption. This process is performed iteratively, further progressively promoting
the generation of more faithful and comprehensive descriptions. To mitigate the
additional computational cost induced by the iterative process, we introduce
RICO-Flash, which learns to generate captions like RICO using DPO. Extensive
experiments demonstrate that our approach significantly improves caption
accuracy and completeness, outperforms most baselines by approximately 10% on
both CapsBench and CompreCap. Code released at
https://github.com/wangyuchi369/RICO.