PixelHacker: Restauración de Imágenes con Consistencia Estructural y SemánticaPixelHacker: Image Inpainting with Structural and Semantic Consistency
La restauración de imágenes es un área fundamental de investigación entre la edición y la generación de imágenes. Los métodos más recientes de vanguardia (SOTA, por sus siglas en inglés) han explorado mecanismos novedosos de atención, arquitecturas ligeras y modelado consciente del contexto, demostrando un rendimiento impresionante. Sin embargo, a menudo enfrentan dificultades con estructuras complejas (por ejemplo, texturas, formas, relaciones espaciales) y semántica (por ejemplo, consistencia de color, restauración de objetos y corrección lógica), lo que resulta en artefactos y generación inapropiada. Para abordar este desafío, diseñamos un paradigma de restauración simple pero efectivo llamado guía de categorías latentes, y proponemos además un modelo basado en difusión denominado PixelHacker. Específicamente, primero construimos un gran conjunto de datos que contiene 14 millones de pares de imagen-máscara, anotando el primer plano y el fondo (con 116 y 21 categorías potenciales, respectivamente). Luego, codificamos las representaciones potenciales del primer plano y el fondo por separado mediante dos incrustaciones de tamaño fijo, e inyectamos intermitentemente estas características en el proceso de eliminación de ruido mediante atención lineal. Finalmente, al preentrenar en nuestro conjunto de datos y ajustar en puntos de referencia de código abierto, obtenemos PixelHacker. Experimentos exhaustivos muestran que PixelHacker supera ampliamente al SOTA en una variedad de conjuntos de datos (Places2, CelebA-HQ y FFHQ) y exhibe una notable consistencia tanto en estructura como en semántica. Página del proyecto en https://hustvl.github.io/PixelHacker.