RICO: Повышение точности и полноты переописания изображений через визуальную реконструкцию
RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction
May 28, 2025
Авторы: Yuchi Wang, Yishuo Cai, Shuhuai Ren, Sihan Yang, Linli Yao, Yuanxin Liu, Yuanxing Zhang, Pengfei Wan, Xu Sun
cs.AI
Аннотация
Переписывание описаний изображений широко используется для создания обучающих наборов данных повышенного качества для различных мультимодальных задач. Существующие методы переписывания обычно полагаются на мощные мультимодальные большие языковые модели (MLLM) для улучшения текстовых описаний, но часто страдают от неточностей из-за галлюцинаций и неполноты, вызванной отсутствием детализированных деталей. Чтобы устранить эти ограничения, мы предлагаем RICO — новый фреймворк, который уточняет описания через визуальную реконструкцию. В частности, мы используем модель преобразования текста в изображение для реконструкции описания в эталонное изображение и предлагаем MLLM выявить расхождения между оригинальным и реконструированным изображениями для уточнения описания. Этот процесс выполняется итеративно, что способствует постепенному созданию более точных и полных описаний. Для снижения дополнительных вычислительных затрат, вызванных итеративным процессом, мы представляем RICO-Flash, который обучается генерировать описания, подобные RICO, с использованием DPO. Многочисленные эксперименты демонстрируют, что наш подход значительно улучшает точность и полноту описаний, превосходя большинство базовых методов примерно на 10% как на CapsBench, так и на CompreCap. Код доступен по адресу: https://github.com/wangyuchi369/RICO.
English
Image recaptioning is widely used to generate training datasets with enhanced
quality for various multimodal tasks. Existing recaptioning methods typically
rely on powerful multimodal large language models (MLLMs) to enhance textual
descriptions, but often suffer from inaccuracies due to hallucinations and
incompleteness caused by missing fine-grained details. To address these
limitations, we propose RICO, a novel framework that refines captions through
visual reconstruction. Specifically, we leverage a text-to-image model to
reconstruct a caption into a reference image, and prompt an MLLM to identify
discrepancies between the original and reconstructed images to refine the
caption. This process is performed iteratively, further progressively promoting
the generation of more faithful and comprehensive descriptions. To mitigate the
additional computational cost induced by the iterative process, we introduce
RICO-Flash, which learns to generate captions like RICO using DPO. Extensive
experiments demonstrate that our approach significantly improves caption
accuracy and completeness, outperforms most baselines by approximately 10% on
both CapsBench and CompreCap. Code released at
https://github.com/wangyuchi369/RICO.