ChatPaper.aiChatPaper

RICO: 시각적 재구성을 통한 이미지 재캡션의 정확성과 완전성 향상

RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction

May 28, 2025
저자: Yuchi Wang, Yishuo Cai, Shuhuai Ren, Sihan Yang, Linli Yao, Yuanxin Liu, Yuanxing Zhang, Pengfei Wan, Xu Sun
cs.AI

초록

이미지 재캡셔닝은 다양한 멀티모달 작업을 위한 고품질 학습 데이터셋을 생성하기 위해 널리 사용됩니다. 기존의 재캡셔닝 방법은 일반적으로 강력한 멀티모달 대형 언어 모델(MLLM)을 활용하여 텍스트 설명을 개선하지만, 환각(hallucination)과 미세한 세부 사항의 누락으로 인한 부정확성과 불완전성에 직면하는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 시각적 재구성을 통해 캡션을 개선하는 새로운 프레임워크인 RICO를 제안합니다. 구체적으로, 우리는 텍스트-이미지 모델을 활용하여 캡션을 참조 이미지로 재구성하고, MLLM을 사용하여 원본 이미지와 재구성된 이미지 간의 차이를 식별하여 캡션을 개선합니다. 이 과정은 반복적으로 수행되며, 점진적으로 더 정확하고 포괄적인 설명 생성을 촉진합니다. 반복 과정으로 인한 추가적인 계산 비용을 완화하기 위해, 우리는 DPO를 사용하여 RICO와 유사한 캡션을 생성하는 RICO-Flash를 도입했습니다. 광범위한 실험을 통해 우리의 접근 방식이 캡션의 정확성과 완전성을 크게 향상시키며, CapsBench와 CompreCap에서 대부분의 베이스라인을 약 10% 정도 능가함을 입증했습니다. 코드는 https://github.com/wangyuchi369/RICO에서 공개되었습니다.
English
Image recaptioning is widely used to generate training datasets with enhanced quality for various multimodal tasks. Existing recaptioning methods typically rely on powerful multimodal large language models (MLLMs) to enhance textual descriptions, but often suffer from inaccuracies due to hallucinations and incompleteness caused by missing fine-grained details. To address these limitations, we propose RICO, a novel framework that refines captions through visual reconstruction. Specifically, we leverage a text-to-image model to reconstruct a caption into a reference image, and prompt an MLLM to identify discrepancies between the original and reconstructed images to refine the caption. This process is performed iteratively, further progressively promoting the generation of more faithful and comprehensive descriptions. To mitigate the additional computational cost induced by the iterative process, we introduce RICO-Flash, which learns to generate captions like RICO using DPO. Extensive experiments demonstrate that our approach significantly improves caption accuracy and completeness, outperforms most baselines by approximately 10% on both CapsBench and CompreCap. Code released at https://github.com/wangyuchi369/RICO.

Summary

AI-Generated Summary

PDF72May 29, 2025