ChatPaper.aiChatPaper

HiFi-Inpaint: Auf dem Weg zu hochauflösender referenzbasierter Bildinpainting zur Erzeugung detailtreuer Mensch-Produkt-Bilder

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

March 2, 2026
Autoren: Yichen Liu, Donghao Zhou, Jie Wang, Xin Gao, Guisheng Liu, Jiatong Li, Quanwei Zhang, Qiang Lyu, Lanqing Guo, Shilei Wen, Weiqiang Wang, Pheng-Ann Heng
cs.AI

Zusammenfassung

Mensch-Produkt-Bilder, die die Integration von Menschen und Produkten darstellen, spielen eine entscheidende Rolle in der Werbung, im E-Commerce und im digitalen Marketing. Die zentrale Herausforderung bei der Generierung solcher Bilder liegt in der hochpräzisen Erhaltung von Produktdetails. Unter den bestehenden Paradigmen bietet referenzbasiertes Inpainting eine zielgerichtete Lösung, indem es Produktreferenzbilder nutzt, um den Inpainting-Prozess zu steuern. Allerdings bestehen in drei Schlüsselbereichen weiterhin Einschränkungen: das Fehlen umfangreicher, diverser Trainingsdaten, die Schwierigkeit aktueller Modelle, sich auf die Bewahrung von Produktdetails zu konzentrieren, und die Unzulänglichkeit grober Überwachungsmechanismen für eine präzise Steuerung. Um diese Probleme zu adressieren, schlagen wir HiFi-Inpaint vor, ein neuartiges, hochpräzises, referenzbasiertes Inpainting-Framework, das speziell für die Generierung von Mensch-Produkt-Bildern entwickelt wurde. HiFi-Inpaint führt eine Shared Enhancement Attention (SEA) ein, um feinkörnige Produktmerkmale zu verfeinern, und einen Detail-Aware Loss (DAL), um eine präzise Überwachung auf Pixelebene mittels Hochfrequenzkarten zu gewährleisten. Zusätzlich haben wir einen neuen Datensatz, HP-Image-40K, erstellt, dessen Proben aus selbstsynthetisierten Daten kuratiert und mit automatischer Filterung aufbereitet wurden. Experimentelle Ergebnisse zeigen, dass HiFi-Inpaint state-of-the-art Leistung erzielt und detailerhaltende Mensch-Produkt-Bilder liefert.
English
Human-product images, which showcase the integration of humans and products, play a vital role in advertising, e-commerce, and digital marketing. The essential challenge of generating such images lies in ensuring the high-fidelity preservation of product details. Among existing paradigms, reference-based inpainting offers a targeted solution by leveraging product reference images to guide the inpainting process. However, limitations remain in three key aspects: the lack of diverse large-scale training data, the struggle of current models to focus on product detail preservation, and the inability of coarse supervision for achieving precise guidance. To address these issues, we propose HiFi-Inpaint, a novel high-fidelity reference-based inpainting framework tailored for generating human-product images. HiFi-Inpaint introduces Shared Enhancement Attention (SEA) to refine fine-grained product features and Detail-Aware Loss (DAL) to enforce precise pixel-level supervision using high-frequency maps. Additionally, we construct a new dataset, HP-Image-40K, with samples curated from self-synthesis data and processed with automatic filtering. Experimental results show that HiFi-Inpaint achieves state-of-the-art performance, delivering detail-preserving human-product images.
PDF262March 9, 2026