ObjetOuvert : Exploitation des connaissances préalables sur l'identité et la diversité dérivées de la vidéo pour la génération et la manipulation d'images pilotées par le sujet
OpenSubject: Leveraging Video-Derived Identity and Diversity Priors for Subject-driven Image Generation and Manipulation
December 9, 2025
papers.authors: Yexin Liu, Manyuan Zhang, Yueze Wang, Hongyu Li, Dian Zheng, Weiming Zhang, Changsheng Lu, Xunliang Cai, Yan Feng, Peng Pei, Harry Yang
cs.AI
papers.abstract
Malgré les progrès prometteurs dans la génération d'images pilotée par un sujet, les modèles actuels s'écartent souvent des identités de référence et peinent dans les scènes complexes comportant plusieurs sujets. Pour relever ce défi, nous présentons OpenSubject, un vaste corpus dérivé de vidéos contenant 2,5 millions d'échantillons et 4,35 millions d'images destiné à la génération et à la manipulation pilotées par un sujet. Le jeu de données est construit selon un pipeline en quatre étapes qui exploite des préalables d'identité inter-images. (i) Curatation de vidéos. Nous appliquons des filtres de résolution et d'esthétique pour obtenir des séquences de haute qualité. (ii) Extraction et appariement de sujets inter-images. Nous utilisons un consensus de catégorie basé sur un modèle vision-langage (VLM), un ancrage local et un appariement tenant compte de la diversité pour sélectionner des paires d'images. (iii) Synthèse d'images de référence préservant l'identité. Nous introduisons un prolongement guidé par une carte de segmentation pour synthétiser les images d'entrée pour la génération pilotée par un sujet, et un remplissage guidé par une boîte pour générer les images d'entrée pour la manipulation pilotée par un sujet, accompagnés d'augmentations géométriques et d'une érosion des contours irréguliers. (iv) Vérification et légendage. Nous utilisons un VLM pour valider les échantillons synthétisés, resynthétiser les échantillons échoués sur la base de l'étape (iii), puis construire des légendes courtes et longues. De plus, nous introduisons un benchmark couvrant la génération et la manipulation pilotées par un sujet, puis nous évaluons la fidélité à l'identité, l'adhésion à l'invite, la cohérence de la manipulation et la cohérence de l'arrière-plan à l'aide d'un juge VLM. Des expériences approfondies montrent que l'entraînement avec OpenSubject améliore les performances de génération et de manipulation, en particulier dans les scènes complexes.
English
Despite the promising progress in subject-driven image generation, current models often deviate from the reference identities and struggle in complex scenes with multiple subjects. To address this challenge, we introduce OpenSubject, a video-derived large-scale corpus with 2.5M samples and 4.35M images for subject-driven generation and manipulation. The dataset is built with a four-stage pipeline that exploits cross-frame identity priors. (i) Video Curation. We apply resolution and aesthetic filtering to obtain high-quality clips. (ii) Cross-Frame Subject Mining and Pairing. We utilize vision-language model (VLM)-based category consensus, local grounding, and diversity-aware pairing to select image pairs. (iii) Identity-Preserving Reference Image Synthesis. We introduce segmentation map-guided outpainting to synthesize the input images for subject-driven generation and box-guided inpainting to generate input images for subject-driven manipulation, together with geometry-aware augmentations and irregular boundary erosion. (iv) Verification and Captioning. We utilize a VLM to validate synthesized samples, re-synthesize failed samples based on stage (iii), and then construct short and long captions. In addition, we introduce a benchmark covering subject-driven generation and manipulation, and then evaluate identity fidelity, prompt adherence, manipulation consistency, and background consistency with a VLM judge. Extensive experiments show that training with OpenSubject improves generation and manipulation performance, particularly in complex scenes.