ChatPaper.aiChatPaper

RICO: Verbetering van nauwkeurigheid en volledigheid in beeldherbeschrijving via visuele reconstructie

RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction

May 28, 2025
Auteurs: Yuchi Wang, Yishuo Cai, Shuhuai Ren, Sihan Yang, Linli Yao, Yuanxin Liu, Yuanxing Zhang, Pengfei Wan, Xu Sun
cs.AI

Samenvatting

Image recaptioning wordt veel gebruikt om trainingsdatasets van hogere kwaliteit te genereren voor diverse multimodale taken. Bestaande recaptioning-methoden maken doorgaans gebruik van krachtige multimodale grote taalmodellen (MLLMs) om tekstuele beschrijvingen te verbeteren, maar lijden vaak aan onnauwkeurigheden door hallucinaties en onvolledigheid veroorzaakt door ontbrekende fijnmazige details. Om deze beperkingen aan te pakken, stellen we RICO voor, een nieuw framework dat bijschriften verfijnt door middel van visuele reconstructie. Specifiek maken we gebruik van een tekst-naar-beeldmodel om een bijschrift te reconstrueren in een referentiebeeld, en vragen we een MLLM om verschillen tussen het originele en gereconstrueerde beeld te identificeren om het bijschrift te verfijnen. Dit proces wordt iteratief uitgevoerd, waardoor de generatie van meer getrouwe en uitgebreide beschrijvingen verder wordt bevorderd. Om de extra rekenkosten die door het iteratieve proces worden veroorzaakt te beperken, introduceren we RICO-Flash, dat leert om bijschriften te genereren zoals RICO met behulp van DPO. Uitgebreide experimenten tonen aan dat onze aanpak de nauwkeurigheid en volledigheid van bijschriften aanzienlijk verbetert, en de meeste baselines met ongeveer 10% overtreft op zowel CapsBench als CompreCap. Code is vrijgegeven op https://github.com/wangyuchi369/RICO.
English
Image recaptioning is widely used to generate training datasets with enhanced quality for various multimodal tasks. Existing recaptioning methods typically rely on powerful multimodal large language models (MLLMs) to enhance textual descriptions, but often suffer from inaccuracies due to hallucinations and incompleteness caused by missing fine-grained details. To address these limitations, we propose RICO, a novel framework that refines captions through visual reconstruction. Specifically, we leverage a text-to-image model to reconstruct a caption into a reference image, and prompt an MLLM to identify discrepancies between the original and reconstructed images to refine the caption. This process is performed iteratively, further progressively promoting the generation of more faithful and comprehensive descriptions. To mitigate the additional computational cost induced by the iterative process, we introduce RICO-Flash, which learns to generate captions like RICO using DPO. Extensive experiments demonstrate that our approach significantly improves caption accuracy and completeness, outperforms most baselines by approximately 10% on both CapsBench and CompreCap. Code released at https://github.com/wangyuchi369/RICO.
PDF82May 29, 2025