OpenSubject: 映像から抽出されたアイデンティティと多様性の事前分布を活用した被写体駆動型画像生成と操作
OpenSubject: Leveraging Video-Derived Identity and Diversity Priors for Subject-driven Image Generation and Manipulation
December 9, 2025
著者: Yexin Liu, Manyuan Zhang, Yueze Wang, Hongyu Li, Dian Zheng, Weiming Zhang, Changsheng Lu, Xunliang Cai, Yan Feng, Peng Pei, Harry Yang
cs.AI
要旨
主題駆動型画像生成における有望な進展にもかかわらず、既存モデルは参照アイデンティティから逸脱しがちで、複数の被写体が存在する複雑なシーンでは困難に直面している。この課題に対処するため、我々は主題駆動型生成・操作のための動画由来大規模コーパス「OpenSubject」を提案する。本データセットは250万サンプル、435万画像から構成され、フレーム間アイデンティティ事前情報を活用した4段階パイプラインで構築されている。(i) 動画収集:解像度と美的選別を適用し高品質クリップを取得。(ii) フレーム間主題マイニングとペアリング:視覚言語モデル(VLM)に基づくカテゴリ合意、局部接地、多様性考慮ペアリングにより画像ペアを選定。(iii) アイデンティティ保存参照画像合成:セグメンテーションマップ指導的外挿により主題駆動生成用入力画像を、ボックス指導的内挿により主題駆動操作用入力画像を合成。さらに幾何学的認識データ拡張と不規則境界侵食を適用。(iv) 検証とキャプション生成:VLMで合成サンプルを検証し、不合格サンプルは段階(iii)に基づき再合成。その後短・長キャプションを構築。加えて、主題駆動生成・操作を網羅するベンチマークを導入し、VLM審査員によりアイデンティティ忠実度、プロンプト遵守度、操作一貫性、背景一貫性を評価。大規模実験により、OpenSubjectによる学習が特に複雑シーンにおける生成・操作性能を向上させることを実証した。
English
Despite the promising progress in subject-driven image generation, current models often deviate from the reference identities and struggle in complex scenes with multiple subjects. To address this challenge, we introduce OpenSubject, a video-derived large-scale corpus with 2.5M samples and 4.35M images for subject-driven generation and manipulation. The dataset is built with a four-stage pipeline that exploits cross-frame identity priors. (i) Video Curation. We apply resolution and aesthetic filtering to obtain high-quality clips. (ii) Cross-Frame Subject Mining and Pairing. We utilize vision-language model (VLM)-based category consensus, local grounding, and diversity-aware pairing to select image pairs. (iii) Identity-Preserving Reference Image Synthesis. We introduce segmentation map-guided outpainting to synthesize the input images for subject-driven generation and box-guided inpainting to generate input images for subject-driven manipulation, together with geometry-aware augmentations and irregular boundary erosion. (iv) Verification and Captioning. We utilize a VLM to validate synthesized samples, re-synthesize failed samples based on stage (iii), and then construct short and long captions. In addition, we introduce a benchmark covering subject-driven generation and manipulation, and then evaluate identity fidelity, prompt adherence, manipulation consistency, and background consistency with a VLM judge. Extensive experiments show that training with OpenSubject improves generation and manipulation performance, particularly in complex scenes.