Onderwerp: Benutten van op video afgeleide identiteits- en diversiteitspriors voor subjectgestuurde beeldgeneratie en -manipulatie
OpenSubject: Leveraging Video-Derived Identity and Diversity Priors for Subject-driven Image Generation and Manipulation
December 9, 2025
Auteurs: Yexin Liu, Manyuan Zhang, Yueze Wang, Hongyu Li, Dian Zheng, Weiming Zhang, Changsheng Lu, Xunliang Cai, Yan Feng, Peng Pei, Harry Yang
cs.AI
Samenvatting
Ondanks de veelbelovende vooruitgang in onderwerpgestuurde beeldgeneratie wijken huidige modellen vaak af van de referentie-identiteiten en hebben ze moeite met complexe scènes met meerdere onderwerpen. Om deze uitdaging aan te pakken, introduceren we OpenSubject, een grootschalige, op video's gebaseerde corpus met 2,5 miljoen samples en 4,35 miljoen afbeeldingen voor onderwerpgestuurde generatie en manipulatie. De dataset is opgebouwd met een pijplijn van vier fasen die gebruikmaakt van cross-frame identiteitspriors. (i) Videocuratie. We passen resolutie- en esthetische filtering toe om hoogwaardige clips te verkrijgen. (ii) Cross-Frame Onderwerpdetectie en -koppeling. We benutten op vision-language models (VLM) gebaseerde categorieconsensus, lokale verankering en diversiteitsbewuste koppeling om beeldparen te selecteren. (iii) Identiteitsbehoudende Referentiebeeld Synthese. We introduceren segmentatiekaart-gestuurde outpainting om de invoerbeelden voor onderwerpgestuurde generatie te synthetiseren, en box-gestuurde inpainting om invoerbeelden voor onderwerpgestuurde manipulatie te genereren, samen met geometriebewuste augmentaties en erosie van onregelmatige grenzen. (iv) Verificatie en Beschrijving. We gebruiken een VLM om gesynthetiseerde samples te valideren, mislukte samples opnieuw te synthetiseren op basis van fase (iii), en vervolgens korte en lange bijschriften te construeren. Daarnaast introduceren we een benchmark voor onderwerpgestuurde generatie en manipulatie, en evalueren we identiteitsgetrouwheid, promptnaleving, manipulatierichtheid en achtergrondconsistentie met een VLM als beoordelaar. Uitgebreide experimenten tonen aan dat training met OpenSubject de generatie- en manipulatieprestaties verbetert, vooral in complexe scènes.
English
Despite the promising progress in subject-driven image generation, current models often deviate from the reference identities and struggle in complex scenes with multiple subjects. To address this challenge, we introduce OpenSubject, a video-derived large-scale corpus with 2.5M samples and 4.35M images for subject-driven generation and manipulation. The dataset is built with a four-stage pipeline that exploits cross-frame identity priors. (i) Video Curation. We apply resolution and aesthetic filtering to obtain high-quality clips. (ii) Cross-Frame Subject Mining and Pairing. We utilize vision-language model (VLM)-based category consensus, local grounding, and diversity-aware pairing to select image pairs. (iii) Identity-Preserving Reference Image Synthesis. We introduce segmentation map-guided outpainting to synthesize the input images for subject-driven generation and box-guided inpainting to generate input images for subject-driven manipulation, together with geometry-aware augmentations and irregular boundary erosion. (iv) Verification and Captioning. We utilize a VLM to validate synthesized samples, re-synthesize failed samples based on stage (iii), and then construct short and long captions. In addition, we introduce a benchmark covering subject-driven generation and manipulation, and then evaluate identity fidelity, prompt adherence, manipulation consistency, and background consistency with a VLM judge. Extensive experiments show that training with OpenSubject improves generation and manipulation performance, particularly in complex scenes.