Il Critico della Coerenza: Correzione delle Incoerenze nelle Immagini Generate tramite Allineamento Attentivo Guidato da Riferimento
The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment
November 25, 2025
Autori: Ziheng Ouyang, Yiren Song, Yaoli Liu, Shihao Zhu, Qibin Hou, Ming-Ming Cheng, Mike Zheng Shou
cs.AI
Abstract
I lavori precedenti hanno esplorato varie attività di generazione personalizzata a partire da un'immagine di riferimento, ma continuano a presentare limitazioni nella generazione di dettagli fine-granulari consistenti. In questo articolo, il nostro obiettivo è risolvere il problema dell'incoerenza delle immagini generate applicando un approccio di post-editing guidato dal riferimento e presentiamo il nostro ImageCritic. Inizialmente costruiamo un dataset di triplette riferimento-degradato-bersaglio ottenute tramite selezione basata su VLM e degradazione esplicita, che simula efficacemente le comuni imprecisioni o incoerenze osservate nei modelli di generazione esistenti. Inoltre, basandoci su un esame approfondito dei meccanismi di attenzione e delle rappresentazioni intrinseche del modello, ideiamo di conseguenza una loss di allineamento dell'attenzione e un codificatore di dettagli per rettificare con precisione le incoerenze. ImageCritic può essere integrato in un framework ad agente per rilevare automaticamente le incoerenze e correggerle tramite editing multiplo e locale in scenari complessi. Esperimenti estensivi dimostrano che ImageCritic può risolvere efficacemente i problemi legati ai dettagli in vari scenari di generazione personalizzata, apportando miglioramenti significativi rispetto ai metodi esistenti.
English
Previous works have explored various customized generation tasks given a reference image, but they still face limitations in generating consistent fine-grained details. In this paper, our aim is to solve the inconsistency problem of generated images by applying a reference-guided post-editing approach and present our ImageCritic. We first construct a dataset of reference-degraded-target triplets obtained via VLM-based selection and explicit degradation, which effectively simulates the common inaccuracies or inconsistencies observed in existing generation models. Furthermore, building on a thorough examination of the model's attention mechanisms and intrinsic representations, we accordingly devise an attention alignment loss and a detail encoder to precisely rectify inconsistencies. ImageCritic can be integrated into an agent framework to automatically detect inconsistencies and correct them with multi-round and local editing in complex scenarios. Extensive experiments demonstrate that ImageCritic can effectively resolve detail-related issues in various customized generation scenarios, providing significant improvements over existing methods.