PixelHacker : Réparation d’images avec cohérence structurelle et sémantique
PixelHacker: Image Inpainting with Structural and Semantic Consistency
April 29, 2025
Auteurs: Ziyang Xu, Kangsheng Duan, Xiaolei Shen, Zhifeng Ding, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang
cs.AI
Résumé
La réparation d’image est un domaine de recherche fondamental situé à l’intersection de l’édition et de la génération d’images. Les méthodes récentes de pointe (state-of-the-art, SOTA) ont exploré de nouveaux mécanismes d’attention, des architectures légères et une modélisation contextuelle, démontrant des performances impressionnantes. Cependant, elles rencontrent souvent des difficultés avec des structures complexes (par exemple, texture, forme, relations spatiales) et des aspects sémantiques (par exemple, cohérence des couleurs, restauration d’objets et correction logique), ce qui entraîne des artefacts et des générations inappropriées. Pour relever ce défi, nous concevons un paradigme de réparation d’image simple mais efficace appelé guidage par catégories latentes, et proposons en outre un modèle basé sur la diffusion nommé PixelHacker. Plus précisément, nous construisons d’abord un vaste ensemble de données contenant 14 millions de paires image-masque en annotant les plans avant et arrière (avec respectivement 116 et 21 catégories potentielles). Ensuite, nous encodons séparément les représentations potentielles des plans avant et arrière à travers deux plongements de taille fixe, et injectons ces caractéristiques de manière intermittente dans le processus de débruitage via une attention linéaire. Enfin, en pré-entraînant notre modèle sur notre ensemble de données et en l’affinant sur des benchmarks open-source, nous obtenons PixelHacker. Des expériences approfondies montrent que PixelHacker surpasse de manière exhaustive les méthodes SOTA sur une large gamme de jeux de données (Places2, CelebA-HQ et FFHQ) et présente une remarquable cohérence tant au niveau de la structure que de la sémantique. Page du projet : https://hustvl.github.io/PixelHacker.
English
Image inpainting is a fundamental research area between image editing and
image generation. Recent state-of-the-art (SOTA) methods have explored novel
attention mechanisms, lightweight architectures, and context-aware modeling,
demonstrating impressive performance. However, they often struggle with complex
structure (e.g., texture, shape, spatial relations) and semantics (e.g., color
consistency, object restoration, and logical correctness), leading to artifacts
and inappropriate generation. To address this challenge, we design a simple yet
effective inpainting paradigm called latent categories guidance, and further
propose a diffusion-based model named PixelHacker. Specifically, we first
construct a large dataset containing 14 million image-mask pairs by annotating
foreground and background (potential 116 and 21 categories, respectively).
Then, we encode potential foreground and background representations separately
through two fixed-size embeddings, and intermittently inject these features
into the denoising process via linear attention. Finally, by pre-training on
our dataset and fine-tuning on open-source benchmarks, we obtain PixelHacker.
Extensive experiments show that PixelHacker comprehensively outperforms the
SOTA on a wide range of datasets (Places2, CelebA-HQ, and FFHQ) and exhibits
remarkable consistency in both structure and semantics. Project page at
https://hustvl.github.io/PixelHacker.Summary
AI-Generated Summary