O Crítico de Consistência: Corrigindo Inconsistências em Imagens Geradas por Meio de Alinhamento Atento Guiado por Referência

Resumo

Trabalhos anteriores exploraram várias tarefas de geração personalizada a partir de uma imagem de referência, mas ainda enfrentam limitações na geração de detalhes refinados consistentes. Neste artigo, nosso objetivo é resolver o problema de inconsistência das imagens geradas aplicando uma abordagem de pós-edição guiada por referência e apresentamos nosso ImageCritic. Primeiro, construímos um conjunto de dados de triplas referência-degradação-alvo obtidas por meio de seleção baseada em VLM e degradação explícita, o que simula efetivamente as imprecisões ou inconsistências comuns observadas nos modelos de geração existentes. Além disso, com base em um exame minucioso dos mecanismos de atenção e representações intrínsecas do modelo, elaboramos correspondentemente uma perda de alinhamento de atenção e um codificador de detalhes para retificar precisamente as inconsistências. O ImageCritic pode ser integrado a uma estrutura de agente para detectar automaticamente inconsistências e corrigi-las com edição múltipla e local em cenários complexos. Experimentos extensivos demonstram que o ImageCritic pode resolver efetivamente problemas relacionados a detalhes em vários cenários de geração personalizada, fornecendo melhorias significativas em relação aos métodos existentes.

English

Previous works have explored various customized generation tasks given a reference image, but they still face limitations in generating consistent fine-grained details. In this paper, our aim is to solve the inconsistency problem of generated images by applying a reference-guided post-editing approach and present our ImageCritic. We first construct a dataset of reference-degraded-target triplets obtained via VLM-based selection and explicit degradation, which effectively simulates the common inaccuracies or inconsistencies observed in existing generation models. Furthermore, building on a thorough examination of the model's attention mechanisms and intrinsic representations, we accordingly devise an attention alignment loss and a detail encoder to precisely rectify inconsistencies. ImageCritic can be integrated into an agent framework to automatically detect inconsistencies and correct them with multi-round and local editing in complex scenarios. Extensive experiments demonstrate that ImageCritic can effectively resolve detail-related issues in various customized generation scenarios, providing significant improvements over existing methods.