ChatPaper.aiChatPaper

Assunto: Aproveitamento de Prioridades de Identidade e Diversidade Derivadas de Vídeo para Geração e Manipulação de Imagens Orientadas a Assuntos

OpenSubject: Leveraging Video-Derived Identity and Diversity Priors for Subject-driven Image Generation and Manipulation

December 9, 2025
Autores: Yexin Liu, Manyuan Zhang, Yueze Wang, Hongyu Li, Dian Zheng, Weiming Zhang, Changsheng Lu, Xunliang Cai, Yan Feng, Peng Pei, Harry Yang
cs.AI

Resumo

Apesar dos avanços promissores na geração de imagens orientada a sujeitos, os modelos atuais frequentemente se desviam das identidades de referência e apresentam dificuldades em cenas complexas com múltiplos sujeitos. Para enfrentar este desafio, apresentamos o OpenSubject, um corpus em larga escala derivado de vídeos com 2,5 milhões de amostras e 4,35 milhões de imagens para geração e manipulação orientada a sujeitos. O conjunto de dados é construído com um pipeline de quatro estágios que explora prévias de identidade entre quadros. (i) Curadoria de Vídeo. Aplicamos filtros de resolução e estética para obter clipes de alta qualidade. (ii) Mineração e Emparelhamento de Sujeitos entre Quadros. Utilizamos consenso de categoria baseado em modelo de visão e linguagem (VLM), ancoragem local e emparelhamento com consciência de diversidade para selecionar pares de imagens. (iii) Síntese de Imagem de Referência com Preservação de Identidade. Introduzimos a expansão guiada por mapa de segmentação para sintetizar as imagens de entrada para geração orientada a sujeitos e a restauração guiada por caixa delimitadora para gerar imagens de entrada para manipulação orientada a sujeitos, juntamente com aumentações com consciência geométrica e erosão de borda irregular. (iv) Verificação e Legendagem. Utilizamos um VLM para validar amostras sintetizadas, ressintetizar amostras com falha com base no estágio (iii) e, em seguida, construir legendas curtas e longas. Adicionalmente, introduzimos um benchmark abrangendo geração e manipulação orientada a sujeitos, e então avaliamos fidelidade de identidade, aderência ao prompt, consistência de manipulação e consistência de fundo com um juiz VLM. Experimentos extensivos mostram que o treinamento com OpenSubject melhora o desempenho de geração e manipulação, particularmente em cenas complexas.
English
Despite the promising progress in subject-driven image generation, current models often deviate from the reference identities and struggle in complex scenes with multiple subjects. To address this challenge, we introduce OpenSubject, a video-derived large-scale corpus with 2.5M samples and 4.35M images for subject-driven generation and manipulation. The dataset is built with a four-stage pipeline that exploits cross-frame identity priors. (i) Video Curation. We apply resolution and aesthetic filtering to obtain high-quality clips. (ii) Cross-Frame Subject Mining and Pairing. We utilize vision-language model (VLM)-based category consensus, local grounding, and diversity-aware pairing to select image pairs. (iii) Identity-Preserving Reference Image Synthesis. We introduce segmentation map-guided outpainting to synthesize the input images for subject-driven generation and box-guided inpainting to generate input images for subject-driven manipulation, together with geometry-aware augmentations and irregular boundary erosion. (iv) Verification and Captioning. We utilize a VLM to validate synthesized samples, re-synthesize failed samples based on stage (iii), and then construct short and long captions. In addition, we introduce a benchmark covering subject-driven generation and manipulation, and then evaluate identity fidelity, prompt adherence, manipulation consistency, and background consistency with a VLM judge. Extensive experiments show that training with OpenSubject improves generation and manipulation performance, particularly in complex scenes.
PDF182February 7, 2026