ChatPaper.aiChatPaper

InfiniteYou: アイデンティティを保持しながら柔軟に写真を再構築

InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity

March 20, 2025
著者: Liming Jiang, Qing Yan, Yumin Jia, Zichuan Liu, Hao Kang, Xin Lu
cs.AI

要旨

柔軟かつ高忠実なアイデンティティ保存画像生成の実現は、特にFLUXのような高度なDiffusion Transformer(DiT)において依然として困難な課題です。本論文では、この課題に対処するためにDiTを活用した最初期の堅牢なフレームワークであるInfiniteYou(InfU)を提案します。InfUは、既存手法が抱える重要な問題、すなわちアイデンティティ類似性の不足、テキストと画像の整合性の低さ、生成品質および美的感覚の欠如を解決します。InfUの中核となるのは、InfuseNetというコンポーネントで、これは残差接続を介してDiTベースモデルにアイデンティティ特徴を注入し、生成能力を維持しながらアイデンティティ類似性を向上させます。さらに、合成された単一人物複数サンプル(SPMS)データを用いた事前学習と教師あり微調整(SFT)を含む多段階トレーニング戦略により、テキストと画像の整合性が向上し、画像品質が改善され、顔のコピー&ペーストが軽減されます。大規模な実験により、InfUが既存のベースラインを凌駕する最先端の性能を達成することが実証されています。加えて、InfUのプラグアンドプレイ設計は、様々な既存手法との互換性を確保し、広範なコミュニティに貴重な貢献を提供します。
English
Achieving flexible and high-fidelity identity-preserved image generation remains formidable, particularly with advanced Diffusion Transformers (DiTs) like FLUX. We introduce InfiniteYou (InfU), one of the earliest robust frameworks leveraging DiTs for this task. InfU addresses significant issues of existing methods, such as insufficient identity similarity, poor text-image alignment, and low generation quality and aesthetics. Central to InfU is InfuseNet, a component that injects identity features into the DiT base model via residual connections, enhancing identity similarity while maintaining generation capabilities. A multi-stage training strategy, including pretraining and supervised fine-tuning (SFT) with synthetic single-person-multiple-sample (SPMS) data, further improves text-image alignment, ameliorates image quality, and alleviates face copy-pasting. Extensive experiments demonstrate that InfU achieves state-of-the-art performance, surpassing existing baselines. In addition, the plug-and-play design of InfU ensures compatibility with various existing methods, offering a valuable contribution to the broader community.

Summary

AI-Generated Summary

PDF356March 21, 2025