ChatPaper.aiChatPaper

Generalización de Menos a Más: Desbloqueando Mayor Controlabilidad mediante Generación en Contexto

Less-to-More Generalization: Unlocking More Controllability by In-Context Generation

April 2, 2025
Autores: Shaojin Wu, Mengqi Huang, Wenxu Wu, Yufeng Cheng, Fei Ding, Qian He
cs.AI

Resumen

Aunque la generación basada en sujetos ha sido ampliamente explorada en la generación de imágenes debido a sus diversas aplicaciones, aún enfrenta desafíos en la escalabilidad de los datos y la expansibilidad de los sujetos. Para el primer desafío, pasar de la creación de conjuntos de datos de un solo sujeto a múltiples sujetos y escalarlos es particularmente difícil. Para el segundo, la mayoría de los métodos recientes se centran en la generación de un solo sujeto, lo que dificulta su aplicación en escenarios con múltiples sujetos. En este estudio, proponemos una canalización de síntesis de datos altamente consistente para abordar este desafío. Esta canalización aprovecha las capacidades intrínsecas de generación en contexto de los transformadores de difusión y genera datos pareados de múltiples sujetos con alta consistencia. Además, presentamos UNO, que consiste en una alineación cruzada progresiva entre modalidades y un posicionamiento rotatorio universal. Es un modelo de sujeto a imagen condicionado por múltiples imágenes, entrenado de manera iterativa a partir de un modelo de texto a imagen. Experimentos exhaustivos muestran que nuestro método puede lograr una alta consistencia mientras garantiza la controlabilidad tanto en la generación impulsada por un solo sujeto como por múltiples sujetos.
English
Although subject-driven generation has been extensively explored in image generation due to its wide applications, it still has challenges in data scalability and subject expansibility. For the first challenge, moving from curating single-subject datasets to multiple-subject ones and scaling them is particularly difficult. For the second, most recent methods center on single-subject generation, making it hard to apply when dealing with multi-subject scenarios. In this study, we propose a highly-consistent data synthesis pipeline to tackle this challenge. This pipeline harnesses the intrinsic in-context generation capabilities of diffusion transformers and generates high-consistency multi-subject paired data. Additionally, we introduce UNO, which consists of progressive cross-modal alignment and universal rotary position embedding. It is a multi-image conditioned subject-to-image model iteratively trained from a text-to-image model. Extensive experiments show that our method can achieve high consistency while ensuring controllability in both single-subject and multi-subject driven generation.

Summary

AI-Generated Summary

PDF353April 9, 2025