GenTron: Глубокое исследование диффузионных трансформаторов для генерации изображений и видео
GenTron: Delving Deep into Diffusion Transformers for Image and Video Generation
December 7, 2023
Авторы: Shoufa Chen, Mengmeng Xu, Jiawei Ren, Yuren Cong, Sen He, Yanping Xie, Animesh Sinha, Ping Luo, Tao Xiang, Juan-Manuel Perez-Rua
cs.AI
Аннотация
В данном исследовании мы изучаем Transformer-модели диффузии для генерации изображений и видео. Несмотря на доминирование архитектур Transformer в различных областях благодаря их гибкости и масштабируемости, в визуальной генеративной сфере преимущественно используются CNN-архитектуры на основе U-Net, особенно в моделях, основанных на диффузии. Мы представляем GenTron — семейство генеративных моделей, использующих Transformer-диффузию, чтобы восполнить этот пробел. Нашим первым шагом стала адаптация Diffusion Transformers (DiTs) от классификации к текстовому условию, что потребовало тщательного эмпирического исследования механизма условного управления. Затем мы масштабировали GenTron с примерно 900 миллионов до более чем 3 миллиардов параметров, наблюдая значительное улучшение визуального качества. Кроме того, мы расширили GenTron для генерации видео на основе текста, внедрив новый метод управления без движения для повышения качества видео. В человеческих оценках по сравнению с SDXL GenTron достигает 51,1% побед по визуальному качеству (с 19,8% ничьих) и 42,3% побед по соответствию тексту (с 42,9% ничьих). GenTron также демонстрирует выдающиеся результаты в T2I-CompBench, подчеркивая свои сильные стороны в композиционной генерации. Мы считаем, что эта работа предоставит ценные инсайты и станет полезным ориентиром для будущих исследований.
English
In this study, we explore Transformer-based diffusion models for image and
video generation. Despite the dominance of Transformer architectures in various
fields due to their flexibility and scalability, the visual generative domain
primarily utilizes CNN-based U-Net architectures, particularly in
diffusion-based models. We introduce GenTron, a family of Generative models
employing Transformer-based diffusion, to address this gap. Our initial step
was to adapt Diffusion Transformers (DiTs) from class to text conditioning, a
process involving thorough empirical exploration of the conditioning mechanism.
We then scale GenTron from approximately 900M to over 3B parameters, observing
significant improvements in visual quality. Furthermore, we extend GenTron to
text-to-video generation, incorporating novel motion-free guidance to enhance
video quality. In human evaluations against SDXL, GenTron achieves a 51.1% win
rate in visual quality (with a 19.8% draw rate), and a 42.3% win rate in text
alignment (with a 42.9% draw rate). GenTron also excels in the T2I-CompBench,
underscoring its strengths in compositional generation. We believe this work
will provide meaningful insights and serve as a valuable reference for future
research.