一貫性批評家:参照誘導型注意アライメントによる生成画像の不整合修正
The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment
November 25, 2025
著者: Ziheng Ouyang, Yiren Song, Yaoli Liu, Shihao Zhu, Qibin Hou, Ming-Ming Cheng, Mike Zheng Shou
cs.AI
要旨
既存研究では、参照画像を基にした様々なカスタマイズ生成タスクが探究されてきたが、一貫性のある微細なディテールの生成には依然として課題があった。本論文では、参照画像誘導型の後編集アプローチを適用し、生成画像の不一致問題を解決するImageCriticを提案する。まず、VLMベースの選択と明示的な劣化処理により取得された参照-劣化-ターゲットの三組データセットを構築し、既存生成モデルで観察される一般的な不正確さや不一致を効果的に模倣する。さらに、モデルの注意機構と内在的表現に関する詳細な分析に基づき、注意整合性損失とディテールエンコーダを考案し、不一致を精密に補正する。ImageCriticはエージェントフレームワークに統合可能で、複雑なシナリオにおいて多段階のローカル編集により自動的に不一致を検出・修正できる。大規模な実験により、ImageCriticが様々なカスタマイズ生成シナリオにおけるディテール関連の問題を効果的に解決し、既存手法を大幅に上回る改善をもたらすことを実証する。
English
Previous works have explored various customized generation tasks given a reference image, but they still face limitations in generating consistent fine-grained details. In this paper, our aim is to solve the inconsistency problem of generated images by applying a reference-guided post-editing approach and present our ImageCritic. We first construct a dataset of reference-degraded-target triplets obtained via VLM-based selection and explicit degradation, which effectively simulates the common inaccuracies or inconsistencies observed in existing generation models. Furthermore, building on a thorough examination of the model's attention mechanisms and intrinsic representations, we accordingly devise an attention alignment loss and a detail encoder to precisely rectify inconsistencies. ImageCritic can be integrated into an agent framework to automatically detect inconsistencies and correct them with multi-round and local editing in complex scenarios. Extensive experiments demonstrate that ImageCritic can effectively resolve detail-related issues in various customized generation scenarios, providing significant improvements over existing methods.