ChatPaper.aiChatPaper

주제: 주체 기반 이미지 생성 및 조작을 위한 비디오 기반 정체성 및 다양성 사전 정보 활용

OpenSubject: Leveraging Video-Derived Identity and Diversity Priors for Subject-driven Image Generation and Manipulation

December 9, 2025
저자: Yexin Liu, Manyuan Zhang, Yueze Wang, Hongyu Li, Dian Zheng, Weiming Zhang, Changsheng Lu, Xunliang Cai, Yan Feng, Peng Pei, Harry Yang
cs.AI

초록

주체 기반 이미지 생성 분야에서의 유망한 발전에도 불구하고, 현재 모델들은 참조 정체성에서 벗어나거나 여러 주체가 등장하는 복잡한 장면에서 어려움을 겪는 경우가 많습니다. 이러한 문제를 해결하기 위해 우리는 주체 기반 생성 및 조작을 위한 2.5M 개의 샘플과 4.35M 개의 이미지로 구성된 비디오 기반 대규모 코퍼스인 OpenSubject를 소개합니다. 본 데이터셋은 프레임 간 정체성 사전 정보를 활용하는 4단계 파이프라인으로 구축되었습니다. (i) 비디오 큐레이션: 해상도 및 미적 기준 필터링을 적용하여 고품질 클립을 확보합니다. (ii) 프레임 간 주체 탐색 및配对: 비전-언어 모델 기반 범주 합의, 지역 위치 추정, 다양성 인식配对를 활용하여 이미지 쌍을 선택합니다. (iii) 정체성 보존 참조 이미지 합성: 세그멘테이션 맵 기반 아웃페인팅을 통해 주체 기반 생성을 위한 입력 이미지를 합성하고, 박스 기반 인페인팅을 통해 주체 기반 조작을 위한 입력 이미지를 생성하며, 기하학적 인식 증강 및 불규칙 경계 침식을 함께 적용합니다. (iv) 검증 및 캡션 생성: 비전-언어 모델을 활용하여 합성된 샘플을 검증하고, 실패한 샘플은 (iii)단계를 기반으로 재합성한 후 짧은 캡션과 긴 캡션을 구성합니다. 또한, 주체 기반 생성 및 조작을 포괄하는 벤치마크를 도입하고 비전-언어 모델 평가자를 통해 정체성 정확도, 프롬프트 준수도, 조작 일관성, 배경 일관성을 평가합니다. 폭넓은 실험을 통해 OpenSubject로 학습 시 생성 및 조작 성능, 특히 복잡한 장면에서의 성능이 향상됨을 확인했습니다.
English
Despite the promising progress in subject-driven image generation, current models often deviate from the reference identities and struggle in complex scenes with multiple subjects. To address this challenge, we introduce OpenSubject, a video-derived large-scale corpus with 2.5M samples and 4.35M images for subject-driven generation and manipulation. The dataset is built with a four-stage pipeline that exploits cross-frame identity priors. (i) Video Curation. We apply resolution and aesthetic filtering to obtain high-quality clips. (ii) Cross-Frame Subject Mining and Pairing. We utilize vision-language model (VLM)-based category consensus, local grounding, and diversity-aware pairing to select image pairs. (iii) Identity-Preserving Reference Image Synthesis. We introduce segmentation map-guided outpainting to synthesize the input images for subject-driven generation and box-guided inpainting to generate input images for subject-driven manipulation, together with geometry-aware augmentations and irregular boundary erosion. (iv) Verification and Captioning. We utilize a VLM to validate synthesized samples, re-synthesize failed samples based on stage (iii), and then construct short and long captions. In addition, we introduce a benchmark covering subject-driven generation and manipulation, and then evaluate identity fidelity, prompt adherence, manipulation consistency, and background consistency with a VLM judge. Extensive experiments show that training with OpenSubject improves generation and manipulation performance, particularly in complex scenes.
PDF182February 7, 2026