Generalização de Menos para Mais: Desbloqueando Mais Controlabilidade por Geração em Contexto
Less-to-More Generalization: Unlocking More Controllability by In-Context Generation
April 2, 2025
Autores: Shaojin Wu, Mengqi Huang, Wenxu Wu, Yufeng Cheng, Fei Ding, Qian He
cs.AI
Resumo
Embora a geração orientada por objetos tenha sido amplamente explorada na geração de imagens devido às suas diversas aplicações, ainda enfrenta desafios em escalabilidade de dados e expansibilidade de objetos. Para o primeiro desafio, a transição da curadoria de conjuntos de dados de um único objeto para múltiplos objetos e sua escalabilidade é particularmente difícil. Para o segundo, a maioria dos métodos recentes concentra-se na geração de um único objeto, tornando difícil sua aplicação em cenários com múltiplos objetos. Neste estudo, propomos um pipeline de síntese de dados altamente consistente para enfrentar esse desafio. Esse pipeline aproveita as capacidades intrínsecas de geração em contexto dos transformadores de difusão e gera dados pareados de múltiplos objetos com alta consistência. Além disso, introduzimos o UNO, que consiste em alinhamento progressivo entre modalidades e incorporação universal de posição rotativa. Trata-se de um modelo de objeto-para-imagem condicionado por múltiplas imagens, treinado iterativamente a partir de um modelo de texto-para-imagem. Experimentos extensivos mostram que nosso método pode alcançar alta consistência enquanto garante controlabilidade tanto na geração orientada por um único objeto quanto por múltiplos objetos.
English
Although subject-driven generation has been extensively explored in image
generation due to its wide applications, it still has challenges in data
scalability and subject expansibility. For the first challenge, moving from
curating single-subject datasets to multiple-subject ones and scaling them is
particularly difficult. For the second, most recent methods center on
single-subject generation, making it hard to apply when dealing with
multi-subject scenarios. In this study, we propose a highly-consistent data
synthesis pipeline to tackle this challenge. This pipeline harnesses the
intrinsic in-context generation capabilities of diffusion transformers and
generates high-consistency multi-subject paired data. Additionally, we
introduce UNO, which consists of progressive cross-modal alignment and
universal rotary position embedding. It is a multi-image conditioned
subject-to-image model iteratively trained from a text-to-image model.
Extensive experiments show that our method can achieve high consistency while
ensuring controllability in both single-subject and multi-subject driven
generation.Summary
AI-Generated Summary