InfiniteYou: Гибкое преобразование фотографий с сохранением вашей идентичности
InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity
March 20, 2025
Авторы: Liming Jiang, Qing Yan, Yumin Jia, Zichuan Liu, Hao Kang, Xin Lu
cs.AI
Аннотация
Достижение гибкого и высококачественного генерации изображений с сохранением идентичности остается сложной задачей, особенно при использовании продвинутых Diffusion Transformers (DiTs), таких как FLUX. Мы представляем InfiniteYou (InfU) — одну из первых надежных архитектур, использующих DiTs для решения этой задачи. InfU устраняет ключевые проблемы существующих методов, такие как недостаточное сходство идентичности, слабое соответствие текста и изображения, а также низкое качество и эстетика генерации. Основой InfU является InfuseNet — компонент, который внедряет признаки идентичности в базовую модель DiT через остаточные соединения, улучшая сходство идентичности при сохранении способности к генерации. Многоэтапная стратегия обучения, включающая предварительное обучение и контролируемую тонкую настройку (SFT) с использованием синтетических данных single-person-multiple-sample (SPMS), дополнительно улучшает соответствие текста и изображения, повышает качество изображений и снижает эффект копирования лиц. Многочисленные эксперименты демонстрируют, что InfU достигает наилучших результатов, превосходя существующие базовые подходы. Кроме того, модульная конструкция InfU обеспечивает совместимость с различными существующими методами, что представляет ценность для широкого сообщества.
English
Achieving flexible and high-fidelity identity-preserved image generation
remains formidable, particularly with advanced Diffusion Transformers (DiTs)
like FLUX. We introduce InfiniteYou (InfU), one of the earliest robust
frameworks leveraging DiTs for this task. InfU addresses significant issues of
existing methods, such as insufficient identity similarity, poor text-image
alignment, and low generation quality and aesthetics. Central to InfU is
InfuseNet, a component that injects identity features into the DiT base model
via residual connections, enhancing identity similarity while maintaining
generation capabilities. A multi-stage training strategy, including pretraining
and supervised fine-tuning (SFT) with synthetic single-person-multiple-sample
(SPMS) data, further improves text-image alignment, ameliorates image quality,
and alleviates face copy-pasting. Extensive experiments demonstrate that InfU
achieves state-of-the-art performance, surpassing existing baselines. In
addition, the plug-and-play design of InfU ensures compatibility with various
existing methods, offering a valuable contribution to the broader community.Summary
AI-Generated Summary