Weniger-zu-Mehr-Generalisierung: Mehr Steuerbarkeit durch In-Kontext-Generierung

papers.abstract

Obwohl die subjektgesteuerte Generierung in der Bildgenerierung aufgrund ihrer vielfältigen Anwendungen intensiv erforscht wurde, bestehen weiterhin Herausforderungen in Bezug auf die Daten-Skalierbarkeit und die Erweiterbarkeit von Subjekten. Für die erste Herausforderung ist der Übergang von der Erstellung von Einzel-Subjekt-Datensätzen zu Mehrfach-Subjekt-Datensätzen und deren Skalierung besonders schwierig. Für die zweite Herausforderung konzentrieren sich die meisten aktuellen Methoden auf die Einzel-Subjekt-Generierung, was die Anwendung bei Mehrfach-Subjekt-Szenarien erschwert. In dieser Studie schlagen wir eine hochkonsistente Daten-Synthese-Pipeline vor, um diese Herausforderung zu bewältigen. Diese Pipeline nutzt die intrinsischen In-Context-Generierungsfähigkeiten von Diffusionstransformern und erzeugt hochkonsistente, mehrfach-Subjekt-gepaarte Daten. Zusätzlich führen wir UNO ein, das aus progressiver cross-modaler Ausrichtung und universellem Rotary-Position-Embedding besteht. Es handelt sich um ein mehrfach-bildgesteuertes Subjekt-zu-Bild-Modell, das iterativ aus einem Text-zu-Bild-Modell trainiert wird. Umfangreiche Experimente zeigen, dass unsere Methode hohe Konsistenz erreichen kann, während gleichzeitig die Kontrollierbarkeit sowohl bei der Einzel-Subjekt- als auch bei der Mehrfach-Subjekt-gesteuerten Generierung gewährleistet wird.

English

Although subject-driven generation has been extensively explored in image generation due to its wide applications, it still has challenges in data scalability and subject expansibility. For the first challenge, moving from curating single-subject datasets to multiple-subject ones and scaling them is particularly difficult. For the second, most recent methods center on single-subject generation, making it hard to apply when dealing with multi-subject scenarios. In this study, we propose a highly-consistent data synthesis pipeline to tackle this challenge. This pipeline harnesses the intrinsic in-context generation capabilities of diffusion transformers and generates high-consistency multi-subject paired data. Additionally, we introduce UNO, which consists of progressive cross-modal alignment and universal rotary position embedding. It is a multi-image conditioned subject-to-image model iteratively trained from a text-to-image model. Extensive experiments show that our method can achieve high consistency while ensuring controllability in both single-subject and multi-subject driven generation.

Weniger-zu-Mehr-Generalisierung: Mehr Steuerbarkeit durch In-Kontext-Generierung

Less-to-More Generalization: Unlocking More Controllability by In-Context Generation

papers.abstract

Support