ChatPaper.aiChatPaper

RICO: Verbesserung der Genauigkeit und Vollständigkeit bei der Bildbeschreibung durch visuelle Rekonstruktion

RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction

May 28, 2025
Autoren: Yuchi Wang, Yishuo Cai, Shuhuai Ren, Sihan Yang, Linli Yao, Yuanxin Liu, Yuanxing Zhang, Pengfei Wan, Xu Sun
cs.AI

Zusammenfassung

Die Bildneuunterschriftung wird häufig verwendet, um Trainingsdatensätze mit verbesserter Qualität für verschiedene multimodale Aufgaben zu generieren. Bisherige Methoden zur Neuunterschriftung stützen sich typischerweise auf leistungsstarke multimodale große Sprachmodelle (MLLMs), um textuelle Beschreibungen zu verbessern, leiden jedoch oft unter Ungenauigkeiten aufgrund von Halluzinationen und Unvollständigkeit, die durch fehlende feingranulare Details verursacht werden. Um diese Einschränkungen zu überwinden, schlagen wir RICO vor, ein neuartiges Framework, das Bildunterschriften durch visuelle Rekonstruktion verfeinert. Konkret nutzen wir ein Text-zu-Bild-Modell, um eine Bildunterschrift in ein Referenzbild zu rekonstruieren, und fordern ein MLLM auf, Diskrepanzen zwischen dem Originalbild und dem rekonstruierten Bild zu identifizieren, um die Bildunterschrift zu verfeinern. Dieser Prozess wird iterativ durchgeführt, wodurch die Erstellung treuerer und umfassenderer Beschreibungen weiter gefördert wird. Um den zusätzlichen Rechenaufwand, der durch den iterativen Prozess entsteht, zu minimieren, führen wir RICO-Flash ein, das lernt, Bildunterschriften wie RICO mithilfe von DPO zu generieren. Umfangreiche Experimente zeigen, dass unser Ansatz die Genauigkeit und Vollständigkeit von Bildunterschriften signifikant verbessert und die meisten Vergleichsmethoden auf CapsBench und CompreCap um etwa 10 % übertrifft. Der Code ist unter https://github.com/wangyuchi369/RICO veröffentlicht.
English
Image recaptioning is widely used to generate training datasets with enhanced quality for various multimodal tasks. Existing recaptioning methods typically rely on powerful multimodal large language models (MLLMs) to enhance textual descriptions, but often suffer from inaccuracies due to hallucinations and incompleteness caused by missing fine-grained details. To address these limitations, we propose RICO, a novel framework that refines captions through visual reconstruction. Specifically, we leverage a text-to-image model to reconstruct a caption into a reference image, and prompt an MLLM to identify discrepancies between the original and reconstructed images to refine the caption. This process is performed iteratively, further progressively promoting the generation of more faithful and comprehensive descriptions. To mitigate the additional computational cost induced by the iterative process, we introduce RICO-Flash, which learns to generate captions like RICO using DPO. Extensive experiments demonstrate that our approach significantly improves caption accuracy and completeness, outperforms most baselines by approximately 10% on both CapsBench and CompreCap. Code released at https://github.com/wangyuchi369/RICO.

Summary

AI-Generated Summary

PDF72May 29, 2025