PixelHacker: Afbeelding Inpainting met Structurele en Semantische Consistentie
PixelHacker: Image Inpainting with Structural and Semantic Consistency
April 29, 2025
Auteurs: Ziyang Xu, Kangsheng Duan, Xiaolei Shen, Zhifeng Ding, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang
cs.AI
Samenvatting
Image inpainting is een fundamenteel onderzoeksgebied tussen beeldbewerking en beeldgeneratie. Recente state-of-the-art (SOTA) methoden hebben nieuwe aandachtmechanismen, lichtgewicht architecturen en contextbewuste modellering onderzocht, waarbij indrukwekkende prestaties worden gedemonstreerd. Ze hebben echter vaak moeite met complexe structuren (bijv. textuur, vorm, ruimtelijke relaties) en semantiek (bijv. kleurconsistentie, objectherstel en logische correctheid), wat leidt tot artefacten en ongepaste generatie. Om deze uitdaging aan te pakken, ontwerpen we een eenvoudig maar effectief inpainting-paradigma genaamd latente categorieënbegeleiding, en stellen we verder een op diffusie gebaseerd model voor genaamd PixelHacker. Specifiek construeren we eerst een grote dataset met 14 miljoen beeld-maskerparen door voorgrond en achtergrond te annoteren (potentieel 116 en 21 categorieën respectievelijk). Vervolgens coderen we potentiële voorgrond- en achtergrondrepresentaties afzonderlijk via twee vaste grootte-embeddings, en injecteren we deze kenmerken intermitterend in het denoisingsproces via lineaire aandacht. Ten slotte verkrijgen we PixelHacker door voor te trainen op onze dataset en af te stemmen op open-source benchmarks. Uitgebreide experimenten tonen aan dat PixelHacker de SOTA overtreft op een breed scala aan datasets (Places2, CelebA-HQ en FFHQ) en opmerkelijke consistentie vertoont in zowel structuur als semantiek. Projectpagina op https://hustvl.github.io/PixelHacker.
English
Image inpainting is a fundamental research area between image editing and
image generation. Recent state-of-the-art (SOTA) methods have explored novel
attention mechanisms, lightweight architectures, and context-aware modeling,
demonstrating impressive performance. However, they often struggle with complex
structure (e.g., texture, shape, spatial relations) and semantics (e.g., color
consistency, object restoration, and logical correctness), leading to artifacts
and inappropriate generation. To address this challenge, we design a simple yet
effective inpainting paradigm called latent categories guidance, and further
propose a diffusion-based model named PixelHacker. Specifically, we first
construct a large dataset containing 14 million image-mask pairs by annotating
foreground and background (potential 116 and 21 categories, respectively).
Then, we encode potential foreground and background representations separately
through two fixed-size embeddings, and intermittently inject these features
into the denoising process via linear attention. Finally, by pre-training on
our dataset and fine-tuning on open-source benchmarks, we obtain PixelHacker.
Extensive experiments show that PixelHacker comprehensively outperforms the
SOTA on a wide range of datasets (Places2, CelebA-HQ, and FFHQ) and exhibits
remarkable consistency in both structure and semantics. Project page at
https://hustvl.github.io/PixelHacker.