Asunto: Aprovechamiento de Identidad Derivada de Video y Priores de Diversidad para la Generación y Manipulación de Imágenes Dirigida por Sujetos
OpenSubject: Leveraging Video-Derived Identity and Diversity Priors for Subject-driven Image Generation and Manipulation
December 9, 2025
Autores: Yexin Liu, Manyuan Zhang, Yueze Wang, Hongyu Li, Dian Zheng, Weiming Zhang, Changsheng Lu, Xunliang Cai, Yan Feng, Peng Pei, Harry Yang
cs.AI
Resumen
A pesar de los avances prometedores en la generación de imágenes basada en sujetos, los modelos actuales a menudo se desvían de las identidades de referencia y tienen dificultades en escenas complejas con múltiples sujetos. Para abordar este desafío, presentamos OpenSubject, un corpus a gran escala derivado de vídeos con 2.5 millones de muestras y 4.35 millones de imágenes para la generación y manipulación basada en sujetos. El conjunto de datos se construye con un pipeline de cuatro etapas que aprovecha los *priors* de identidad entre fotogramas. (i) Curación de Vídeos. Aplicamos filtros de resolución y estética para obtener clips de alta calidad. (ii) Minería y Emparejamiento de Sujetos entre Fotogramas. Utilizamos un consenso de categoría basado en un modelo de visión y lenguaje (VLM), el grounding local y un emparejamiento consciente de la diversidad para seleccionar pares de imágenes. (iii) Síntesis de Imágenes de Referencia que Preserva la Identidad. Introducimos la técnica de *outpainting* guiado por mapas de segmentación para sintetizar las imágenes de entrada para la generación basada en sujetos, y la técnica de *inpainting* guiado por cuadros delimitadores para generar las imágenes de entrada para la manipulación basada en sujetos, junto con aumentos de datos con conciencia geométrica y erosión de bordes irregulares. (iv) Verificación y Descripción. Utilizamos un VLM para validar las muestras sintetizadas, resintetizar las muestras fallidas basándonos en la etapa (iii), y luego construir descripciones cortas y largas. Adicionalmente, presentamos un benchmark que cubre la generación y manipulación basada en sujetos, y luego evaluamos la fidelidad de la identidad, la adherencia al *prompt*, la consistencia de la manipulación y la consistencia del fondo con un VLM como juez. Experimentos exhaustivos muestran que el entrenamiento con OpenSubject mejora el rendimiento en generación y manipulación, particularmente en escenas complejas.
English
Despite the promising progress in subject-driven image generation, current models often deviate from the reference identities and struggle in complex scenes with multiple subjects. To address this challenge, we introduce OpenSubject, a video-derived large-scale corpus with 2.5M samples and 4.35M images for subject-driven generation and manipulation. The dataset is built with a four-stage pipeline that exploits cross-frame identity priors. (i) Video Curation. We apply resolution and aesthetic filtering to obtain high-quality clips. (ii) Cross-Frame Subject Mining and Pairing. We utilize vision-language model (VLM)-based category consensus, local grounding, and diversity-aware pairing to select image pairs. (iii) Identity-Preserving Reference Image Synthesis. We introduce segmentation map-guided outpainting to synthesize the input images for subject-driven generation and box-guided inpainting to generate input images for subject-driven manipulation, together with geometry-aware augmentations and irregular boundary erosion. (iv) Verification and Captioning. We utilize a VLM to validate synthesized samples, re-synthesize failed samples based on stage (iii), and then construct short and long captions. In addition, we introduce a benchmark covering subject-driven generation and manipulation, and then evaluate identity fidelity, prompt adherence, manipulation consistency, and background consistency with a VLM judge. Extensive experiments show that training with OpenSubject improves generation and manipulation performance, particularly in complex scenes.