Minder-naar-meer Generalisatie: Meer Beheersbaarheid Ontgrendelen door In-Context Generatie
Less-to-More Generalization: Unlocking More Controllability by In-Context Generation
April 2, 2025
Auteurs: Shaojin Wu, Mengqi Huang, Wenxu Wu, Yufeng Cheng, Fei Ding, Qian He
cs.AI
Samenvatting
Hoewel onderwerpgestuurde generatie uitgebreid is onderzocht in beeldgeneratie vanwege de brede toepassingen, blijft het uitdagingen bieden op het gebied van dataschaalbaarheid en onderwerpuitbreidbaarheid. Voor de eerste uitdaging is de overgang van het samenstellen van datasets met één onderwerp naar datasets met meerdere onderwerpen en het opschalen ervan bijzonder moeilijk. Voor de tweede uitdaging richten de meeste recente methoden zich op generatie met één onderwerp, wat het moeilijk maakt om ze toe te passen bij scenario's met meerdere onderwerpen. In deze studie stellen we een zeer consistente datasynthesepijplijn voor om deze uitdaging aan te pakken. Deze pijplijn maakt gebruik van de intrinsieke in-context generatiecapaciteiten van diffusietransformers en genereert hoogconsistente gepaarde data met meerdere onderwerpen. Daarnaast introduceren we UNO, dat bestaat uit progressieve cross-modale uitlijning en universele roterende positie-embedding. Het is een multi-image geconditioneerd onderwerp-naar-beeldmodel dat iteratief wordt getraind vanuit een tekst-naar-beeldmodel. Uitgebreide experimenten tonen aan dat onze methode hoge consistentie kan bereiken terwijl de beheersbaarheid wordt gewaarborgd in zowel onderwerpgestuurde generatie met één onderwerp als met meerdere onderwerpen.
English
Although subject-driven generation has been extensively explored in image
generation due to its wide applications, it still has challenges in data
scalability and subject expansibility. For the first challenge, moving from
curating single-subject datasets to multiple-subject ones and scaling them is
particularly difficult. For the second, most recent methods center on
single-subject generation, making it hard to apply when dealing with
multi-subject scenarios. In this study, we propose a highly-consistent data
synthesis pipeline to tackle this challenge. This pipeline harnesses the
intrinsic in-context generation capabilities of diffusion transformers and
generates high-consistency multi-subject paired data. Additionally, we
introduce UNO, which consists of progressive cross-modal alignment and
universal rotary position embedding. It is a multi-image conditioned
subject-to-image model iteratively trained from a text-to-image model.
Extensive experiments show that our method can achieve high consistency while
ensuring controllability in both single-subject and multi-subject driven
generation.Summary
AI-Generated Summary