PixelHacker: Restauración de Imágenes con Consistencia Estructural y Semántica
PixelHacker: Image Inpainting with Structural and Semantic Consistency
April 29, 2025
Autores: Ziyang Xu, Kangsheng Duan, Xiaolei Shen, Zhifeng Ding, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang
cs.AI
Resumen
La restauración de imágenes es un área fundamental de investigación entre la edición y la generación de imágenes. Los métodos más recientes de vanguardia (SOTA, por sus siglas en inglés) han explorado mecanismos novedosos de atención, arquitecturas ligeras y modelado consciente del contexto, demostrando un rendimiento impresionante. Sin embargo, a menudo enfrentan dificultades con estructuras complejas (por ejemplo, texturas, formas, relaciones espaciales) y semántica (por ejemplo, consistencia de color, restauración de objetos y corrección lógica), lo que resulta en artefactos y generación inapropiada. Para abordar este desafío, diseñamos un paradigma de restauración simple pero efectivo llamado guía de categorías latentes, y proponemos además un modelo basado en difusión denominado PixelHacker. Específicamente, primero construimos un gran conjunto de datos que contiene 14 millones de pares de imagen-máscara, anotando el primer plano y el fondo (con 116 y 21 categorías potenciales, respectivamente). Luego, codificamos las representaciones potenciales del primer plano y el fondo por separado mediante dos incrustaciones de tamaño fijo, e inyectamos intermitentemente estas características en el proceso de eliminación de ruido mediante atención lineal. Finalmente, al preentrenar en nuestro conjunto de datos y ajustar en puntos de referencia de código abierto, obtenemos PixelHacker. Experimentos exhaustivos muestran que PixelHacker supera ampliamente al SOTA en una variedad de conjuntos de datos (Places2, CelebA-HQ y FFHQ) y exhibe una notable consistencia tanto en estructura como en semántica. Página del proyecto en https://hustvl.github.io/PixelHacker.
English
Image inpainting is a fundamental research area between image editing and
image generation. Recent state-of-the-art (SOTA) methods have explored novel
attention mechanisms, lightweight architectures, and context-aware modeling,
demonstrating impressive performance. However, they often struggle with complex
structure (e.g., texture, shape, spatial relations) and semantics (e.g., color
consistency, object restoration, and logical correctness), leading to artifacts
and inappropriate generation. To address this challenge, we design a simple yet
effective inpainting paradigm called latent categories guidance, and further
propose a diffusion-based model named PixelHacker. Specifically, we first
construct a large dataset containing 14 million image-mask pairs by annotating
foreground and background (potential 116 and 21 categories, respectively).
Then, we encode potential foreground and background representations separately
through two fixed-size embeddings, and intermittently inject these features
into the denoising process via linear attention. Finally, by pre-training on
our dataset and fine-tuning on open-source benchmarks, we obtain PixelHacker.
Extensive experiments show that PixelHacker comprehensively outperforms the
SOTA on a wide range of datasets (Places2, CelebA-HQ, and FFHQ) and exhibits
remarkable consistency in both structure and semantics. Project page at
https://hustvl.github.io/PixelHacker.Summary
AI-Generated Summary