ChatPaper.aiChatPaper

Minder-naar-meer Generalisatie: Meer Beheersbaarheid Ontgrendelen door In-Context Generatie

Less-to-More Generalization: Unlocking More Controllability by In-Context Generation

April 2, 2025
Auteurs: Shaojin Wu, Mengqi Huang, Wenxu Wu, Yufeng Cheng, Fei Ding, Qian He
cs.AI

Samenvatting

Hoewel onderwerpgestuurde generatie uitgebreid is onderzocht in beeldgeneratie vanwege de brede toepassingen, blijft het uitdagingen bieden op het gebied van dataschaalbaarheid en onderwerpuitbreidbaarheid. Voor de eerste uitdaging is de overgang van het samenstellen van datasets met één onderwerp naar datasets met meerdere onderwerpen en het opschalen ervan bijzonder moeilijk. Voor de tweede uitdaging richten de meeste recente methoden zich op generatie met één onderwerp, wat het moeilijk maakt om ze toe te passen bij scenario's met meerdere onderwerpen. In deze studie stellen we een zeer consistente datasynthesepijplijn voor om deze uitdaging aan te pakken. Deze pijplijn maakt gebruik van de intrinsieke in-context generatiecapaciteiten van diffusietransformers en genereert hoogconsistente gepaarde data met meerdere onderwerpen. Daarnaast introduceren we UNO, dat bestaat uit progressieve cross-modale uitlijning en universele roterende positie-embedding. Het is een multi-image geconditioneerd onderwerp-naar-beeldmodel dat iteratief wordt getraind vanuit een tekst-naar-beeldmodel. Uitgebreide experimenten tonen aan dat onze methode hoge consistentie kan bereiken terwijl de beheersbaarheid wordt gewaarborgd in zowel onderwerpgestuurde generatie met één onderwerp als met meerdere onderwerpen.
English
Although subject-driven generation has been extensively explored in image generation due to its wide applications, it still has challenges in data scalability and subject expansibility. For the first challenge, moving from curating single-subject datasets to multiple-subject ones and scaling them is particularly difficult. For the second, most recent methods center on single-subject generation, making it hard to apply when dealing with multi-subject scenarios. In this study, we propose a highly-consistent data synthesis pipeline to tackle this challenge. This pipeline harnesses the intrinsic in-context generation capabilities of diffusion transformers and generates high-consistency multi-subject paired data. Additionally, we introduce UNO, which consists of progressive cross-modal alignment and universal rotary position embedding. It is a multi-image conditioned subject-to-image model iteratively trained from a text-to-image model. Extensive experiments show that our method can achieve high consistency while ensuring controllability in both single-subject and multi-subject driven generation.

Summary

AI-Generated Summary

PDF353April 9, 2025