PixelHacker: Afbeelding Inpainting met Structurele en Semantische Consistentie

Samenvatting

Image inpainting is een fundamenteel onderzoeksgebied tussen beeldbewerking en beeldgeneratie. Recente state-of-the-art (SOTA) methoden hebben nieuwe aandachtmechanismen, lichtgewicht architecturen en contextbewuste modellering onderzocht, waarbij indrukwekkende prestaties worden gedemonstreerd. Ze hebben echter vaak moeite met complexe structuren (bijv. textuur, vorm, ruimtelijke relaties) en semantiek (bijv. kleurconsistentie, objectherstel en logische correctheid), wat leidt tot artefacten en ongepaste generatie. Om deze uitdaging aan te pakken, ontwerpen we een eenvoudig maar effectief inpainting-paradigma genaamd latente categorieënbegeleiding, en stellen we verder een op diffusie gebaseerd model voor genaamd PixelHacker. Specifiek construeren we eerst een grote dataset met 14 miljoen beeld-maskerparen door voorgrond en achtergrond te annoteren (potentieel 116 en 21 categorieën respectievelijk). Vervolgens coderen we potentiële voorgrond- en achtergrondrepresentaties afzonderlijk via twee vaste grootte-embeddings, en injecteren we deze kenmerken intermitterend in het denoisingsproces via lineaire aandacht. Ten slotte verkrijgen we PixelHacker door voor te trainen op onze dataset en af te stemmen op open-source benchmarks. Uitgebreide experimenten tonen aan dat PixelHacker de SOTA overtreft op een breed scala aan datasets (Places2, CelebA-HQ en FFHQ) en opmerkelijke consistentie vertoont in zowel structuur als semantiek. Projectpagina op https://hustvl.github.io/PixelHacker.

English

Image inpainting is a fundamental research area between image editing and image generation. Recent state-of-the-art (SOTA) methods have explored novel attention mechanisms, lightweight architectures, and context-aware modeling, demonstrating impressive performance. However, they often struggle with complex structure (e.g., texture, shape, spatial relations) and semantics (e.g., color consistency, object restoration, and logical correctness), leading to artifacts and inappropriate generation. To address this challenge, we design a simple yet effective inpainting paradigm called latent categories guidance, and further propose a diffusion-based model named PixelHacker. Specifically, we first construct a large dataset containing 14 million image-mask pairs by annotating foreground and background (potential 116 and 21 categories, respectively). Then, we encode potential foreground and background representations separately through two fixed-size embeddings, and intermittently inject these features into the denoising process via linear attention. Finally, by pre-training on our dataset and fine-tuning on open-source benchmarks, we obtain PixelHacker. Extensive experiments show that PixelHacker comprehensively outperforms the SOTA on a wide range of datasets (Places2, CelebA-HQ, and FFHQ) and exhibits remarkable consistency in both structure and semantics. Project page at https://hustvl.github.io/PixelHacker.

PixelHacker: Afbeelding Inpainting met Structurele en Semantische Consistentie

PixelHacker: Image Inpainting with Structural and Semantic Consistency

Samenvatting

Support