ChatPaper.aiChatPaper

Критик согласованности: исправление противоречий в генерируемых изображениях с помощью эталонного направленного внимательного выравнивания

The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment

November 25, 2025
Авторы: Ziheng Ouyang, Yiren Song, Yaoli Liu, Shihao Zhu, Qibin Hou, Ming-Ming Cheng, Mike Zheng Shou
cs.AI

Аннотация

Предыдущие работы исследовали различные задачи кастомизированной генерации по заданному эталонному изображению, однако они по-прежнему сталкиваются с ограничениями в воспроизведении согласованных мелкодетализированных элементов. В данной статье мы стремимся решить проблему несогласованности генерируемых изображений с помощью применения постобработки под управлением эталона и представляем наш метод ImageCritic. Сначала мы создаем набор данных из троек «эталон-деградированное изображение-целевое изображение», полученных посредством отбора на основе визуально-языковых моделей и явной деградации, что эффективно моделирует распространенные неточности и несогласованности, наблюдаемые в существующих моделях генерации. Кроме того, на основе тщательного анализа механизмов внимания и внутренних представлений модели мы разрабатываем функцию потерь для выравнивания внимания и детальный энкодер для точного исправления несогласованностей. ImageCritic может быть интегрирован в агентский фреймворк для автоматического обнаружения несогласованностей и их исправления с помощью многораундового локального редактирования в сложных сценариях. Многочисленные эксперименты демонстрируют, что ImageCritic эффективно решает проблемы, связанные с детализацией, в различных сценариях кастомизированной генерации, обеспечивая значительное улучшение по сравнению с существующими методами.
English
Previous works have explored various customized generation tasks given a reference image, but they still face limitations in generating consistent fine-grained details. In this paper, our aim is to solve the inconsistency problem of generated images by applying a reference-guided post-editing approach and present our ImageCritic. We first construct a dataset of reference-degraded-target triplets obtained via VLM-based selection and explicit degradation, which effectively simulates the common inaccuracies or inconsistencies observed in existing generation models. Furthermore, building on a thorough examination of the model's attention mechanisms and intrinsic representations, we accordingly devise an attention alignment loss and a detail encoder to precisely rectify inconsistencies. ImageCritic can be integrated into an agent framework to automatically detect inconsistencies and correct them with multi-round and local editing in complex scenarios. Extensive experiments demonstrate that ImageCritic can effectively resolve detail-related issues in various customized generation scenarios, providing significant improvements over existing methods.
PDF363December 3, 2025