일관성 비평가: 참조 기반 주의 정렬을 통한 생성 이미지 내 불일치 수정
The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment
November 25, 2025
저자: Ziheng Ouyang, Yiren Song, Yaoli Liu, Shihao Zhu, Qibin Hou, Ming-Ming Cheng, Mike Zheng Shou
cs.AI
초록
기존 연구에서는 참조 이미지가 주어졌을 때 다양한 맞춤형 생성 과제를 탐구해왔으나, 일관된 세밀한 디테일 생성에는 여전히 한계가 존재합니다. 본 논문에서는 참조 기반 후처리 접근법을 적용하여 생성 이미지의 불일치 문제를 해결하고 ImageCritic을 제안합니다. 먼저 VLM 기반 선택 및 명시적 저하를 통해 획득한 참조-저하-대상 삼중항 데이터셋을 구축하여, 기존 생성 모델에서 흔히 관찰되는 부정확성이나 불일치를 효과적으로 모사합니다. 더 나아가 모델의 어텐션 메커니즘과 내재적 표현에 대한 체계적 분석을 바탕으로, 어텐션 정렬 손실과 디테일 인코더를 설계하여 불일치를 정밀하게 보정합니다. ImageCritic은 에이전트 프레임워크에 통합되어 복잡한 시나리오에서 다중 라운드 및 지역 편집을 통해 불일치를 자동으로 감지하고 수정할 수 있습니다. 폭넓은 실험을 통해 ImageCritic이 다양한 맞춤형 생성 시나리오에서 디테일 관련 문제를 효과적으로 해결하며 기존 방법 대비 현저한 성능 향상을 제공함을 입증합니다.
English
Previous works have explored various customized generation tasks given a reference image, but they still face limitations in generating consistent fine-grained details. In this paper, our aim is to solve the inconsistency problem of generated images by applying a reference-guided post-editing approach and present our ImageCritic. We first construct a dataset of reference-degraded-target triplets obtained via VLM-based selection and explicit degradation, which effectively simulates the common inaccuracies or inconsistencies observed in existing generation models. Furthermore, building on a thorough examination of the model's attention mechanisms and intrinsic representations, we accordingly devise an attention alignment loss and a detail encoder to precisely rectify inconsistencies. ImageCritic can be integrated into an agent framework to automatically detect inconsistencies and correct them with multi-round and local editing in complex scenarios. Extensive experiments demonstrate that ImageCritic can effectively resolve detail-related issues in various customized generation scenarios, providing significant improvements over existing methods.