Oggetto: Sfruttamento di Prior di Identità e Diversità Derivati da Video per la Generazione e Manipolazione di Immagini Guidata dal Soggetto
OpenSubject: Leveraging Video-Derived Identity and Diversity Priors for Subject-driven Image Generation and Manipulation
December 9, 2025
Autori: Yexin Liu, Manyuan Zhang, Yueze Wang, Hongyu Li, Dian Zheng, Weiming Zhang, Changsheng Lu, Xunliang Cai, Yan Feng, Peng Pei, Harry Yang
cs.AI
Abstract
Nonostante i progressi promettenti nella generazione di immagini guidata da soggetti, i modelli attuali spesso si discostano dalle identità di riferimento e faticano in scene complesse con più soggetti. Per affrontare questa sfida, introduciamo OpenSubject, un corpus su larga scala derivato da video con 2.5 milioni di campioni e 4.35 milioni di immagini per la generazione e la manipolazione guidata da soggetti. Il dataset è costruito con una pipeline in quattro fasi che sfrutta priorità identitarie cross-frame. (i) Curazione Video. Applichiamo filtri di risoluzione ed estetici per ottenere clip di alta qualità. (ii) Individuazione e Accoppiamento di Soggetti Cross-Frame. Utilizziamo un consenso di categoria basato su modelli visione-linguaggio (VLM), grounding locale e accoppiamento consapevole della diversità per selezionare coppie di immagini. (iii) Sintesi di Immagini di Riferimento con Conservazione dell'Identità. Introduciamo l'outpainting guidato da mappe di segmentazione per sintetizzare le immagini di input per la generazione guidata da soggetti e l'inpainting guidato da bounding box per generare immagini di input per la manipolazione guidata da soggetti, insieme a tecniche di aumento dati geometricamente consapevoli ed erosione di bordi irregolari. (iv) Verifica e Descrizione. Utilizziamo un VLM per convalidare i campioni sintetizzati, risintetizzare i campioni falliti basandoci sulla fase (iii), e quindi costruire descrizioni brevi e lunghe. Inoltre, introduciamo un benchmark che copre la generazione e la manipolazione guidata da soggetti, valutando poi la fedeltà identitaria, l'aderenza al prompt, la coerenza della manipolazione e la coerenza dello sfondo con un giudice VLM. Esperimenti estesi mostrano che l'addestramento con OpenSubject migliora le prestazioni di generazione e manipolazione, specialmente in scene complesse.
English
Despite the promising progress in subject-driven image generation, current models often deviate from the reference identities and struggle in complex scenes with multiple subjects. To address this challenge, we introduce OpenSubject, a video-derived large-scale corpus with 2.5M samples and 4.35M images for subject-driven generation and manipulation. The dataset is built with a four-stage pipeline that exploits cross-frame identity priors. (i) Video Curation. We apply resolution and aesthetic filtering to obtain high-quality clips. (ii) Cross-Frame Subject Mining and Pairing. We utilize vision-language model (VLM)-based category consensus, local grounding, and diversity-aware pairing to select image pairs. (iii) Identity-Preserving Reference Image Synthesis. We introduce segmentation map-guided outpainting to synthesize the input images for subject-driven generation and box-guided inpainting to generate input images for subject-driven manipulation, together with geometry-aware augmentations and irregular boundary erosion. (iv) Verification and Captioning. We utilize a VLM to validate synthesized samples, re-synthesize failed samples based on stage (iii), and then construct short and long captions. In addition, we introduce a benchmark covering subject-driven generation and manipulation, and then evaluate identity fidelity, prompt adherence, manipulation consistency, and background consistency with a VLM judge. Extensive experiments show that training with OpenSubject improves generation and manipulation performance, particularly in complex scenes.