Généralisation du Moins au Plus : Débloquer une plus grande contrôlabilité par génération en contexte
Less-to-More Generalization: Unlocking More Controllability by In-Context Generation
April 2, 2025
Auteurs: Shaojin Wu, Mengqi Huang, Wenxu Wu, Yufeng Cheng, Fei Ding, Qian He
cs.AI
Résumé
Bien que la génération pilotée par sujet ait été largement explorée dans le domaine de la génération d'images en raison de ses nombreuses applications, elle reste confrontée à des défis en matière d'évolutivité des données et d'extensibilité des sujets. Pour le premier défi, la transition de la constitution de jeux de données à sujet unique à des jeux de données multi-sujets et leur mise à l'échelle est particulièrement complexe. Pour le second, la plupart des méthodes récentes se concentrent sur la génération à sujet unique, ce qui rend difficile leur application dans des scénarios multi-sujets. Dans cette étude, nous proposons un pipeline de synthèse de données hautement cohérent pour relever ce défi. Ce pipeline exploite les capacités intrinsèques de génération en contexte des transformateurs de diffusion et produit des données appariées multi-sujets de grande cohérence. Par ailleurs, nous introduisons UNO, qui combine un alignement progressif intermodal et un encodage positionnel rotatif universel. Il s'agit d'un modèle sujet-à-image conditionné par plusieurs images, entraîné de manière itérative à partir d'un modèle texte-à-image. Des expériences approfondies montrent que notre méthode permet d'atteindre une grande cohérence tout en garantissant la contrôlabilité dans les générations pilotées par un sujet unique ou par plusieurs sujets.
English
Although subject-driven generation has been extensively explored in image
generation due to its wide applications, it still has challenges in data
scalability and subject expansibility. For the first challenge, moving from
curating single-subject datasets to multiple-subject ones and scaling them is
particularly difficult. For the second, most recent methods center on
single-subject generation, making it hard to apply when dealing with
multi-subject scenarios. In this study, we propose a highly-consistent data
synthesis pipeline to tackle this challenge. This pipeline harnesses the
intrinsic in-context generation capabilities of diffusion transformers and
generates high-consistency multi-subject paired data. Additionally, we
introduce UNO, which consists of progressive cross-modal alignment and
universal rotary position embedding. It is a multi-image conditioned
subject-to-image model iteratively trained from a text-to-image model.
Extensive experiments show that our method can achieve high consistency while
ensuring controllability in both single-subject and multi-subject driven
generation.Summary
AI-Generated Summary