ChatPaper.aiChatPaper

Тема: Использование априорных данных об идентичности и разнообразии, полученных из видео, для генерации и манипулирования изображений на основе объекта.

OpenSubject: Leveraging Video-Derived Identity and Diversity Priors for Subject-driven Image Generation and Manipulation

December 9, 2025
Авторы: Yexin Liu, Manyuan Zhang, Yueze Wang, Hongyu Li, Dian Zheng, Weiming Zhang, Changsheng Lu, Xunliang Cai, Yan Feng, Peng Pei, Harry Yang
cs.AI

Аннотация

Несмотря на обнадеживающий прогресс в генерации изображений на основе заданного объекта, современные модели часто отклоняются от эталонных идентичностей и испытывают трудности в сложных сценах с несколькими объектами. Для решения этой проблемы мы представляем OpenSubject — масштабный корпус, созданный на основе видео, содержащий 2,5 млн образцов и 4,35 млн изображений для генерации и манипуляций на основе объекта. Набор данных построен с помощью четырехэтапного конвейера, использующего априорные данные об идентичности из межкадрового анализа. (i) Курирование видео. Мы применяем фильтрацию по разрешению и эстетическим критериям для получения высококачественных клипов. (ii) Межкадровое выделение и парное сопоставление объектов. Мы используем консенсус категорий на основе моделей «визуальный язык» (VLM), локальное позиционирование и парное сопоставление с учетом разнообразия для выбора пар изображений. (iii) Синтез эталонных изображений с сохранением идентичности. Мы вводим расширение изображения с управлением через карты сегментации для синтеза входных изображений для генерации на основе объекта и восстановление изображения с управлением через ограничивающие рамки для генерации входных изображений для манипуляций на основе объекта, вместе с геометрически-осознанными аугментациями и эрозией нерегулярных границ. (iv) Проверка и подписание. Мы используем VLM для валидации синтезированных образцов, повторно синтезируем неудачные образцы на основе этапа (iii), а затем создаем короткие и длинные подписи. Кроме того, мы представляем эталонный набор тестов, охватывающий генерацию и манипуляции на основе объекта, и затем оцениваем верность идентичности, соответствие запросу, согласованность манипуляций и согласованность фона с помощью VLM-арбитра. Многочисленные эксперименты показывают, что обучение на OpenSubject улучшает производительность генерации и манипуляций, особенно в сложных сценах.
English
Despite the promising progress in subject-driven image generation, current models often deviate from the reference identities and struggle in complex scenes with multiple subjects. To address this challenge, we introduce OpenSubject, a video-derived large-scale corpus with 2.5M samples and 4.35M images for subject-driven generation and manipulation. The dataset is built with a four-stage pipeline that exploits cross-frame identity priors. (i) Video Curation. We apply resolution and aesthetic filtering to obtain high-quality clips. (ii) Cross-Frame Subject Mining and Pairing. We utilize vision-language model (VLM)-based category consensus, local grounding, and diversity-aware pairing to select image pairs. (iii) Identity-Preserving Reference Image Synthesis. We introduce segmentation map-guided outpainting to synthesize the input images for subject-driven generation and box-guided inpainting to generate input images for subject-driven manipulation, together with geometry-aware augmentations and irregular boundary erosion. (iv) Verification and Captioning. We utilize a VLM to validate synthesized samples, re-synthesize failed samples based on stage (iii), and then construct short and long captions. In addition, we introduce a benchmark covering subject-driven generation and manipulation, and then evaluate identity fidelity, prompt adherence, manipulation consistency, and background consistency with a VLM judge. Extensive experiments show that training with OpenSubject improves generation and manipulation performance, particularly in complex scenes.
PDF61December 10, 2025