Обобщение от меньшего к большему: раскрытие большего уровня управляемости через генерацию в контексте
Less-to-More Generalization: Unlocking More Controllability by In-Context Generation
April 2, 2025
Авторы: Shaojin Wu, Mengqi Huang, Wenxu Wu, Yufeng Cheng, Fei Ding, Qian He
cs.AI
Аннотация
Хотя генерация на основе объектов широко исследуется в области создания изображений благодаря её многочисленным применениям, она всё ещё сталкивается с проблемами масштабируемости данных и расширяемости объектов. Первая проблема заключается в сложности перехода от создания наборов данных с одним объектом к многопредметным и их масштабированию. Вторая проблема связана с тем, что большинство современных методов сосредоточено на генерации с одним объектом, что затрудняет их применение в сценариях с несколькими объектами. В данном исследовании мы предлагаем высокосогласованный конвейер синтеза данных для решения этой задачи. Этот конвейер использует внутренние возможности генерации в контексте диффузионных трансформеров и создаёт высокосогласованные парные данные для нескольких объектов. Кроме того, мы представляем UNO, который включает прогрессивное кросс-модальное выравнивание и универсальное вращающее позиционное кодирование. Это модель генерации изображений на основе нескольких изображений, итеративно обучаемая из модели текста в изображение. Многочисленные эксперименты показывают, что наш метод обеспечивает высокую согласованность при сохранении управляемости как в генерации с одним объектом, так и с несколькими объектами.
English
Although subject-driven generation has been extensively explored in image
generation due to its wide applications, it still has challenges in data
scalability and subject expansibility. For the first challenge, moving from
curating single-subject datasets to multiple-subject ones and scaling them is
particularly difficult. For the second, most recent methods center on
single-subject generation, making it hard to apply when dealing with
multi-subject scenarios. In this study, we propose a highly-consistent data
synthesis pipeline to tackle this challenge. This pipeline harnesses the
intrinsic in-context generation capabilities of diffusion transformers and
generates high-consistency multi-subject paired data. Additionally, we
introduce UNO, which consists of progressive cross-modal alignment and
universal rotary position embedding. It is a multi-image conditioned
subject-to-image model iteratively trained from a text-to-image model.
Extensive experiments show that our method can achieve high consistency while
ensuring controllability in both single-subject and multi-subject driven
generation.Summary
AI-Generated Summary