PixelHacker: Bildinpainting mit struktureller und semantischer Konsistenz
PixelHacker: Image Inpainting with Structural and Semantic Consistency
April 29, 2025
Autoren: Ziyang Xu, Kangsheng Duan, Xiaolei Shen, Zhifeng Ding, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang
cs.AI
Zusammenfassung
Bildinpainting ist ein grundlegendes Forschungsgebiet zwischen Bildbearbeitung und Bildgenerierung. Aktuelle State-of-the-Art (SOTA)-Methoden haben neuartige Aufmerksamkeitsmechanismen, leichtgewichtige Architekturen und kontextbewusste Modellierung untersucht und dabei beeindruckende Leistungen gezeigt. Allerdings haben sie oft Schwierigkeiten mit komplexen Strukturen (z.B. Textur, Form, räumliche Beziehungen) und Semantik (z.B. Farbkonsistenz, Objektwiederherstellung und logische Korrektheit), was zu Artefakten und unangemessener Generierung führt. Um diese Herausforderung zu bewältigen, entwerfen wir ein einfaches, aber effektives Inpainting-Paradigma namens latente Kategorienführung und schlagen weiterhin ein diffusionsbasiertes Modell namens PixelHacker vor. Konkret konstruieren wir zunächst einen großen Datensatz, der 14 Millionen Bild-Masken-Paare enthält, indem wir Vordergrund und Hintergrund (potenziell 116 bzw. 21 Kategorien) annotieren. Dann kodieren wir potenzielle Vordergrund- und Hintergrunddarstellungen separat durch zwei Embeddings fester Größe und injizieren diese Merkmale intermittierend über lineare Aufmerksamkeit in den Denoising-Prozess. Schließlich erhalten wir PixelHacker durch Vorabtraining auf unserem Datensatz und Feinabstimmung auf Open-Source-Benchmarks. Umfangreiche Experimente zeigen, dass PixelHacher die SOTA-Methoden auf einer Vielzahl von Datensätzen (Places2, CelebA-HQ und FFHQ) umfassend übertrifft und sowohl in der Struktur als auch in der Semantik bemerkenswerte Konsistenz aufweist. Projektseite unter https://hustvl.github.io/PixelHacker.
English
Image inpainting is a fundamental research area between image editing and
image generation. Recent state-of-the-art (SOTA) methods have explored novel
attention mechanisms, lightweight architectures, and context-aware modeling,
demonstrating impressive performance. However, they often struggle with complex
structure (e.g., texture, shape, spatial relations) and semantics (e.g., color
consistency, object restoration, and logical correctness), leading to artifacts
and inappropriate generation. To address this challenge, we design a simple yet
effective inpainting paradigm called latent categories guidance, and further
propose a diffusion-based model named PixelHacker. Specifically, we first
construct a large dataset containing 14 million image-mask pairs by annotating
foreground and background (potential 116 and 21 categories, respectively).
Then, we encode potential foreground and background representations separately
through two fixed-size embeddings, and intermittently inject these features
into the denoising process via linear attention. Finally, by pre-training on
our dataset and fine-tuning on open-source benchmarks, we obtain PixelHacker.
Extensive experiments show that PixelHacker comprehensively outperforms the
SOTA on a wide range of datasets (Places2, CelebA-HQ, and FFHQ) and exhibits
remarkable consistency in both structure and semantics. Project page at
https://hustvl.github.io/PixelHacker.Summary
AI-Generated Summary