HiFi-Inpaint: Hacia un inpaintado basado en referencias de alta fidelidad para generar imágenes de persona-producto que preserven el detalle
HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images
March 2, 2026
Autores: Yichen Liu, Donghao Zhou, Jie Wang, Xin Gao, Guisheng Liu, Jiatong Li, Quanwei Zhang, Qiang Lyu, Lanqing Guo, Shilei Wen, Weiqiang Wang, Pheng-Ann Heng
cs.AI
Resumen
Las imágenes de persona-producto, que muestran la integración entre humanos y productos, desempeñan un papel vital en publicidad, comercio electrónico y marketing digital. El desafío esencial de generar dichas imágenes radica en garantizar la preservación de alta fidelidad de los detalles del producto. Entre los paradigmas existentes, el inpaint basado en referencia ofrece una solución dirigida al utilizar imágenes de referencia del producto para guiar el proceso de inpaint. Sin embargo, persisten limitaciones en tres aspectos clave: la falta de datos de entrenamiento diversos a gran escala, la dificultad de los modelos actuales para centrarse en la preservación de detalles del producto y la incapacidad de la supervisión gruesa para lograr una guía precisa. Para abordar estos problemas, proponemos HiFi-Inpaint, un novedoso marco de inpaint basado en referencia de alta fidelidad diseñado para generar imágenes de persona-producto. HiFi-Inpaint introduce Atención de Mejora Compartida (SEA) para refinar características granulares del producto y Pérdida Consciente del Detalle (DAL) para aplicar una supervisión precisa a nivel de píxel utilizando mapas de alta frecuencia. Adicionalmente, construimos un nuevo conjunto de datos, HP-Image-40K, con muestras curadas a partir de datos de auto-síntesis y procesadas con filtrado automático. Los resultados experimentales demuestran que HiFi-Inpaint alcanza un rendimiento de vanguardia, produciendo imágenes de persona-producto que preservan los detalles.
English
Human-product images, which showcase the integration of humans and products, play a vital role in advertising, e-commerce, and digital marketing. The essential challenge of generating such images lies in ensuring the high-fidelity preservation of product details. Among existing paradigms, reference-based inpainting offers a targeted solution by leveraging product reference images to guide the inpainting process. However, limitations remain in three key aspects: the lack of diverse large-scale training data, the struggle of current models to focus on product detail preservation, and the inability of coarse supervision for achieving precise guidance. To address these issues, we propose HiFi-Inpaint, a novel high-fidelity reference-based inpainting framework tailored for generating human-product images. HiFi-Inpaint introduces Shared Enhancement Attention (SEA) to refine fine-grained product features and Detail-Aware Loss (DAL) to enforce precise pixel-level supervision using high-frequency maps. Additionally, we construct a new dataset, HP-Image-40K, with samples curated from self-synthesis data and processed with automatic filtering. Experimental results show that HiFi-Inpaint achieves state-of-the-art performance, delivering detail-preserving human-product images.