Assunto: Aproveitamento de Prioridades de Identidade e Diversidade Derivadas de Vídeo para Geração e Manipulação de Imagens Orientadas a Assuntos

Resumo

Apesar dos avanços promissores na geração de imagens orientada a sujeitos, os modelos atuais frequentemente se desviam das identidades de referência e apresentam dificuldades em cenas complexas com múltiplos sujeitos. Para enfrentar este desafio, apresentamos o OpenSubject, um corpus em larga escala derivado de vídeos com 2,5 milhões de amostras e 4,35 milhões de imagens para geração e manipulação orientada a sujeitos. O conjunto de dados é construído com um pipeline de quatro estágios que explora prévias de identidade entre quadros. (i) Curadoria de Vídeo. Aplicamos filtros de resolução e estética para obter clipes de alta qualidade. (ii) Mineração e Emparelhamento de Sujeitos entre Quadros. Utilizamos consenso de categoria baseado em modelo de visão e linguagem (VLM), ancoragem local e emparelhamento com consciência de diversidade para selecionar pares de imagens. (iii) Síntese de Imagem de Referência com Preservação de Identidade. Introduzimos a expansão guiada por mapa de segmentação para sintetizar as imagens de entrada para geração orientada a sujeitos e a restauração guiada por caixa delimitadora para gerar imagens de entrada para manipulação orientada a sujeitos, juntamente com aumentações com consciência geométrica e erosão de borda irregular. (iv) Verificação e Legendagem. Utilizamos um VLM para validar amostras sintetizadas, ressintetizar amostras com falha com base no estágio (iii) e, em seguida, construir legendas curtas e longas. Adicionalmente, introduzimos um benchmark abrangendo geração e manipulação orientada a sujeitos, e então avaliamos fidelidade de identidade, aderência ao prompt, consistência de manipulação e consistência de fundo com um juiz VLM. Experimentos extensivos mostram que o treinamento com OpenSubject melhora o desempenho de geração e manipulação, particularmente em cenas complexas.

English

Despite the promising progress in subject-driven image generation, current models often deviate from the reference identities and struggle in complex scenes with multiple subjects. To address this challenge, we introduce OpenSubject, a video-derived large-scale corpus with 2.5M samples and 4.35M images for subject-driven generation and manipulation. The dataset is built with a four-stage pipeline that exploits cross-frame identity priors. (i) Video Curation. We apply resolution and aesthetic filtering to obtain high-quality clips. (ii) Cross-Frame Subject Mining and Pairing. We utilize vision-language model (VLM)-based category consensus, local grounding, and diversity-aware pairing to select image pairs. (iii) Identity-Preserving Reference Image Synthesis. We introduce segmentation map-guided outpainting to synthesize the input images for subject-driven generation and box-guided inpainting to generate input images for subject-driven manipulation, together with geometry-aware augmentations and irregular boundary erosion. (iv) Verification and Captioning. We utilize a VLM to validate synthesized samples, re-synthesize failed samples based on stage (iii), and then construct short and long captions. In addition, we introduce a benchmark covering subject-driven generation and manipulation, and then evaluate identity fidelity, prompt adherence, manipulation consistency, and background consistency with a VLM judge. Extensive experiments show that training with OpenSubject improves generation and manipulation performance, particularly in complex scenes.

Assunto: Aproveitamento de Prioridades de Identidade e Diversidade Derivadas de Vídeo para Geração e Manipulação de Imagens Orientadas a Assuntos

OpenSubject: Leveraging Video-Derived Identity and Diversity Priors for Subject-driven Image Generation and Manipulation

Resumo

Support