ChatPaper.aiChatPaper

Betreff: Nutzung videobasierter Identitäts- und Diversitäts-Priors für subjektgesteuerte Bildgenerierung und -manipulation

OpenSubject: Leveraging Video-Derived Identity and Diversity Priors for Subject-driven Image Generation and Manipulation

December 9, 2025
papers.authors: Yexin Liu, Manyuan Zhang, Yueze Wang, Hongyu Li, Dian Zheng, Weiming Zhang, Changsheng Lu, Xunliang Cai, Yan Feng, Peng Pei, Harry Yang
cs.AI

papers.abstract

Trotz der vielversprechenden Fortschritte bei der subjektgesteuerten Bildgenerierung weichen aktuelle Modelle häufig von den Referenzidentitäten ab und haben Schwierigkeiten mit komplexen Szenen mit mehreren Subjekten. Um diese Herausforderung zu bewältigen, stellen wir OpenSubject vor, einen videobasierten großen Datensatz mit 2,5 Millionen Stichproben und 4,35 Millionen Bildern für die subjektgesteuerte Generierung und Manipulation. Der Datensatz wird mit einer vierstufigen Pipeline erstellt, die identitätsbezogene Querinformationen zwischen Bildern nutzt. (i) Videoauswahl. Wir wenden Filter für Auflösung und ästhetische Qualität an, um hochwertige Videoclips zu erhalten. (ii) Subjektextraktion und -paarung über Bilder hinweg. Wir nutzen kategorienbasierte Konsensfindung, lokale Verankerung und diversitätsbewusste Paarung auf Basis von Vision-Language-Modellen (VLM), um Bildpaare auszuwählen. (iii) Identitätserhaltende Synthese von Referenzbildern. Wir führen segmentierungsgestütztes Outpainting zur Synthese der Eingabebilder für die subjektgesteuerte Generierung sowie boxgestütztes Inpainting zur Erzeugung von Eingabebildern für die subjektgesteuerte Manipulation ein, ergänzt durch geometrieaware Augmentierungen und Erosion unregelmäßiger Ränder. (iv) Verifizierung und Beschriftung. Wir nutzen ein VLM zur Validierung synthetisierter Stichproben, synthetisieren fehlgeschlagene Stichproben basierend auf Stufe (iii) erneut und erstellen dann kurze und lange Bildbeschreibungen. Zusätzlich führen wir einen Benchmark ein, der subjektgesteuerte Generierung und Manipulation abdeckt, und bewerten damit Identitätstreue, Prompt-Befolgung, Manipulationskonsistenz und Hintergrundkonsistenz mittels eines VLM-basierten Bewerters. Umfangreiche Experimente zeigen, dass das Training mit OpenSubject die Generierungs- und Manipulationsleistung verbessert, insbesondere in komplexen Szenen.
English
Despite the promising progress in subject-driven image generation, current models often deviate from the reference identities and struggle in complex scenes with multiple subjects. To address this challenge, we introduce OpenSubject, a video-derived large-scale corpus with 2.5M samples and 4.35M images for subject-driven generation and manipulation. The dataset is built with a four-stage pipeline that exploits cross-frame identity priors. (i) Video Curation. We apply resolution and aesthetic filtering to obtain high-quality clips. (ii) Cross-Frame Subject Mining and Pairing. We utilize vision-language model (VLM)-based category consensus, local grounding, and diversity-aware pairing to select image pairs. (iii) Identity-Preserving Reference Image Synthesis. We introduce segmentation map-guided outpainting to synthesize the input images for subject-driven generation and box-guided inpainting to generate input images for subject-driven manipulation, together with geometry-aware augmentations and irregular boundary erosion. (iv) Verification and Captioning. We utilize a VLM to validate synthesized samples, re-synthesize failed samples based on stage (iii), and then construct short and long captions. In addition, we introduce a benchmark covering subject-driven generation and manipulation, and then evaluate identity fidelity, prompt adherence, manipulation consistency, and background consistency with a VLM judge. Extensive experiments show that training with OpenSubject improves generation and manipulation performance, particularly in complex scenes.
PDF61December 10, 2025