RICO: 視覚的再構成による画像再キャプションの精度と完全性の向上
RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction
May 28, 2025
著者: Yuchi Wang, Yishuo Cai, Shuhuai Ren, Sihan Yang, Linli Yao, Yuanxin Liu, Yuanxing Zhang, Pengfei Wan, Xu Sun
cs.AI
要旨
画像再キャプションは、様々なマルチモーダルタスクのための高品質なトレーニングデータセットを生成するために広く使用されています。既存の再キャプション手法は、強力なマルチモーダル大規模言語モデル(MLLM)を利用してテキスト記述を強化するのが一般的ですが、幻覚や細部の欠落による不正確さや不完全さに悩まされることが多いです。これらの課題を解決するため、我々はRICOという新しいフレームワークを提案します。RICOは、視覚的再構築を通じてキャプションを洗練します。具体的には、テキストから画像へのモデルを活用してキャプションを参照画像に再構築し、MLLMにオリジナル画像と再構築画像の差異を特定させてキャプションを洗練します。このプロセスは反復的に行われ、より忠実で包括的な記述の生成をさらに促進します。反復プロセスによる追加の計算コストを軽減するため、DPOを使用してRICOのようにキャプションを生成するRICO-Flashを導入します。大規模な実験により、我々のアプローチがキャプションの正確性と完全性を大幅に向上させ、CapsBenchとCompreCapの両方でほとんどのベースラインを約10%上回ることが実証されました。コードはhttps://github.com/wangyuchi369/RICOで公開されています。
English
Image recaptioning is widely used to generate training datasets with enhanced
quality for various multimodal tasks. Existing recaptioning methods typically
rely on powerful multimodal large language models (MLLMs) to enhance textual
descriptions, but often suffer from inaccuracies due to hallucinations and
incompleteness caused by missing fine-grained details. To address these
limitations, we propose RICO, a novel framework that refines captions through
visual reconstruction. Specifically, we leverage a text-to-image model to
reconstruct a caption into a reference image, and prompt an MLLM to identify
discrepancies between the original and reconstructed images to refine the
caption. This process is performed iteratively, further progressively promoting
the generation of more faithful and comprehensive descriptions. To mitigate the
additional computational cost induced by the iterative process, we introduce
RICO-Flash, which learns to generate captions like RICO using DPO. Extensive
experiments demonstrate that our approach significantly improves caption
accuracy and completeness, outperforms most baselines by approximately 10% on
both CapsBench and CompreCap. Code released at
https://github.com/wangyuchi369/RICO.Summary
AI-Generated Summary