Hunyuan-DiT: Мощный многоуровневый диффузионный трансформер с тонкой китайской интерпретацией

Аннотация

Мы представляем Hunyuan-DiT, трансформер диффузии текста в изображение с тонким пониманием как английского, так и китайского языков. Для создания Hunyuan-DiT мы тщательно разрабатываем структуру трансформера, кодировщик текста и позиционное кодирование. Мы также с нуля создаем весь конвейер данных для обновления и оценки данных для итеративной оптимизации модели. Для тонкого понимания языка мы обучаем Мультимодельную Большую Языковую Модель для усовершенствования подписей к изображениям. Наконец, Hunyuan-DiT способен вести многоходовой мультимодальный диалог с пользователями, создавая и усовершенствуя изображения в соответствии с контекстом. Через наш протокол голистической оценки человеком с более чем 50 профессиональными оценщиками, Hunyuan-DiT устанавливает новый уровень качества в генерации изображений по китайскому языку по сравнению с другими моделями с открытым исходным кодом. Код и предварительно обученные модели доступны публично на github.com/Tencent/HunyuanDiT

English

We present Hunyuan-DiT, a text-to-image diffusion transformer with fine-grained understanding of both English and Chinese. To construct Hunyuan-DiT, we carefully design the transformer structure, text encoder, and positional encoding. We also build from scratch a whole data pipeline to update and evaluate data for iterative model optimization. For fine-grained language understanding, we train a Multimodal Large Language Model to refine the captions of the images. Finally, Hunyuan-DiT can perform multi-turn multimodal dialogue with users, generating and refining images according to the context. Through our holistic human evaluation protocol with more than 50 professional human evaluators, Hunyuan-DiT sets a new state-of-the-art in Chinese-to-image generation compared with other open-source models. Code and pretrained models are publicly available at github.com/Tencent/HunyuanDiT

Hunyuan-DiT: Мощный многоуровневый диффузионный трансформер с тонкой китайской интерпретацией

Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding

Аннотация

Support