PixelHacker: 構造的および意味的一貫性を備えた画像修復
PixelHacker: Image Inpainting with Structural and Semantic Consistency
April 29, 2025
著者: Ziyang Xu, Kangsheng Duan, Xiaolei Shen, Zhifeng Ding, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang
cs.AI
要旨
画像修復は、画像編集と画像生成の間に位置する基本的な研究領域である。近年の最先端(SOTA)手法は、新しいアテンションメカニズム、軽量なアーキテクチャ、およびコンテキストを考慮したモデリングを探求し、印象的な性能を実証している。しかし、これらの手法は複雑な構造(例えば、テクスチャ、形状、空間関係)や意味論(例えば、色の一貫性、オブジェクトの復元、論理的正確さ)に苦戦し、アーティファクトや不適切な生成を引き起こすことが多い。この課題に対処するため、我々は潜在カテゴリガイダンスと呼ばれるシンプルでありながら効果的な修復パラダイムを設計し、さらにPixelHackerという拡散ベースのモデルを提案する。具体的には、まず前景と背景(それぞれ116および21の潜在カテゴリ)を注釈付けすることで、1400万の画像-マスクペアを含む大規模なデータセットを構築する。次に、潜在的な前景と背景の表現をそれぞれ2つの固定サイズの埋め込みを通じて別々にエンコードし、線形アテンションを介してこれらの特徴をノイズ除去プロセスに断続的に注入する。最後に、我々のデータセットで事前学習し、オープンソースのベンチマークで微調整することで、PixelHackerを獲得する。広範な実験により、PixelHackerはPlaces2、CelebA-HQ、FFHQなどの多様なデータセットにおいてSOTAを包括的に上回り、構造と意味論の両方で顕著な一貫性を示すことが確認された。プロジェクトページはhttps://hustvl.github.io/PixelHackerにて公開されている。
English
Image inpainting is a fundamental research area between image editing and
image generation. Recent state-of-the-art (SOTA) methods have explored novel
attention mechanisms, lightweight architectures, and context-aware modeling,
demonstrating impressive performance. However, they often struggle with complex
structure (e.g., texture, shape, spatial relations) and semantics (e.g., color
consistency, object restoration, and logical correctness), leading to artifacts
and inappropriate generation. To address this challenge, we design a simple yet
effective inpainting paradigm called latent categories guidance, and further
propose a diffusion-based model named PixelHacker. Specifically, we first
construct a large dataset containing 14 million image-mask pairs by annotating
foreground and background (potential 116 and 21 categories, respectively).
Then, we encode potential foreground and background representations separately
through two fixed-size embeddings, and intermittently inject these features
into the denoising process via linear attention. Finally, by pre-training on
our dataset and fine-tuning on open-source benchmarks, we obtain PixelHacker.
Extensive experiments show that PixelHacker comprehensively outperforms the
SOTA on a wide range of datasets (Places2, CelebA-HQ, and FFHQ) and exhibits
remarkable consistency in both structure and semantics. Project page at
https://hustvl.github.io/PixelHacker.Summary
AI-Generated Summary