ChatPaper.aiChatPaper

Generalizzazione da Meno a Più: Sbloccare Maggiore Controllabilità attraverso la Generazione in Contesto

Less-to-More Generalization: Unlocking More Controllability by In-Context Generation

April 2, 2025
Autori: Shaojin Wu, Mengqi Huang, Wenxu Wu, Yufeng Cheng, Fei Ding, Qian He
cs.AI

Abstract

Sebbene la generazione guidata da soggetti sia stata ampiamente esplorata nella generazione di immagini grazie alle sue numerose applicazioni, presenta ancora sfide in termini di scalabilità dei dati e espandibilità dei soggetti. Per la prima sfida, il passaggio dalla creazione di dataset con un singolo soggetto a quelli con più soggetti e la loro scalabilità è particolarmente complesso. Per la seconda, la maggior parte dei metodi recenti si concentra sulla generazione di un singolo soggetto, rendendo difficile l'applicazione in scenari con più soggetti. In questo studio, proponiamo una pipeline di sintesi dati altamente coerente per affrontare questa sfida. Questa pipeline sfrutta le capacità intrinseche di generazione in-context dei trasformatori di diffusione e genera dati accoppiati multi-soggetto ad alta coerenza. Inoltre, introduciamo UNO, che consiste in un allineamento cross-modale progressivo e un embedding universale di posizione rotativa. Si tratta di un modello soggetto-immagine condizionato da più immagini, addestrato iterativamente a partire da un modello testo-immagine. Esperimenti estesi dimostrano che il nostro metodo può raggiungere un'elevata coerenza garantendo al contempo la controllabilità sia nella generazione guidata da un singolo soggetto che da più soggetti.
English
Although subject-driven generation has been extensively explored in image generation due to its wide applications, it still has challenges in data scalability and subject expansibility. For the first challenge, moving from curating single-subject datasets to multiple-subject ones and scaling them is particularly difficult. For the second, most recent methods center on single-subject generation, making it hard to apply when dealing with multi-subject scenarios. In this study, we propose a highly-consistent data synthesis pipeline to tackle this challenge. This pipeline harnesses the intrinsic in-context generation capabilities of diffusion transformers and generates high-consistency multi-subject paired data. Additionally, we introduce UNO, which consists of progressive cross-modal alignment and universal rotary position embedding. It is a multi-image conditioned subject-to-image model iteratively trained from a text-to-image model. Extensive experiments show that our method can achieve high consistency while ensuring controllability in both single-subject and multi-subject driven generation.

Summary

AI-Generated Summary

PDF353April 9, 2025