Weniger-zu-Mehr-Generalisierung: Mehr Steuerbarkeit durch In-Kontext-Generierung
Less-to-More Generalization: Unlocking More Controllability by In-Context Generation
April 2, 2025
Autoren: Shaojin Wu, Mengqi Huang, Wenxu Wu, Yufeng Cheng, Fei Ding, Qian He
cs.AI
Zusammenfassung
Obwohl die subjektgesteuerte Generierung in der Bildgenerierung aufgrund ihrer vielfältigen Anwendungen intensiv erforscht wurde, bestehen weiterhin Herausforderungen in Bezug auf die Daten-Skalierbarkeit und die Erweiterbarkeit von Subjekten. Für die erste Herausforderung ist der Übergang von der Erstellung von Einzel-Subjekt-Datensätzen zu Mehrfach-Subjekt-Datensätzen und deren Skalierung besonders schwierig. Für die zweite Herausforderung konzentrieren sich die meisten aktuellen Methoden auf die Einzel-Subjekt-Generierung, was die Anwendung bei Mehrfach-Subjekt-Szenarien erschwert. In dieser Studie schlagen wir eine hochkonsistente Daten-Synthese-Pipeline vor, um diese Herausforderung zu bewältigen. Diese Pipeline nutzt die intrinsischen In-Context-Generierungsfähigkeiten von Diffusionstransformern und erzeugt hochkonsistente, mehrfach-Subjekt-gepaarte Daten. Zusätzlich führen wir UNO ein, das aus progressiver cross-modaler Ausrichtung und universellem Rotary-Position-Embedding besteht. Es handelt sich um ein mehrfach-bildgesteuertes Subjekt-zu-Bild-Modell, das iterativ aus einem Text-zu-Bild-Modell trainiert wird. Umfangreiche Experimente zeigen, dass unsere Methode hohe Konsistenz erreichen kann, während gleichzeitig die Kontrollierbarkeit sowohl bei der Einzel-Subjekt- als auch bei der Mehrfach-Subjekt-gesteuerten Generierung gewährleistet wird.
English
Although subject-driven generation has been extensively explored in image
generation due to its wide applications, it still has challenges in data
scalability and subject expansibility. For the first challenge, moving from
curating single-subject datasets to multiple-subject ones and scaling them is
particularly difficult. For the second, most recent methods center on
single-subject generation, making it hard to apply when dealing with
multi-subject scenarios. In this study, we propose a highly-consistent data
synthesis pipeline to tackle this challenge. This pipeline harnesses the
intrinsic in-context generation capabilities of diffusion transformers and
generates high-consistency multi-subject paired data. Additionally, we
introduce UNO, which consists of progressive cross-modal alignment and
universal rotary position embedding. It is a multi-image conditioned
subject-to-image model iteratively trained from a text-to-image model.
Extensive experiments show that our method can achieve high consistency while
ensuring controllability in both single-subject and multi-subject driven
generation.Summary
AI-Generated Summary