ChatDiT: Базовый вариант без обучения для задачи-агностического свободного чата с диффузионными трансформерами
ChatDiT: A Training-Free Baseline for Task-Agnostic Free-Form Chatting with Diffusion Transformers
December 17, 2024
Авторы: Lianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Chen Liang, Tong Shen, Han Zhang, Huanzhang Dou, Yu Liu, Jingren Zhou
cs.AI
Аннотация
Недавние исследования arXiv:2410.15027 и arXiv:2410.23775 выделили врожденные возможности генерации в контексте предварительно обученных диффузионных трансформеров (DiTs), позволяя им плавно адаптироваться к различным визуальным задачам с минимальными или без архитектурных модификаций. Эти возможности открываются путем объединения токенов самовнимания через несколько входных и целевых изображений, в сочетании с групповыми и маскированными конвейерами генерации. На основе этого фундамента мы представляем ChatDiT - нулевой, универсальный и интерактивный визуальный генеративный фреймворк, использующий предварительно обученные диффузионные трансформеры в их первоначальной форме, не требующий дополнительной настройки, адаптеров или модификаций. Пользователи могут взаимодействовать с ChatDiT для создания переплетенных тексто-изображений статей, многостраничных картинок, редактирования изображений, разработки IP-производных или создания настроек дизайна персонажей, все это через свободно-форматное естественное языковое взаимодействие в одном или нескольких разговорных раундах. В основе ChatDiT лежит мультиагентная система, состоящая из трех ключевых компонентов: агента разбора инструкций, который интерпретирует загруженные пользователем изображения и инструкции, агента планирования стратегии, который разрабатывает одношаговые или многошаговые действия генерации, и агента выполнения, который выполняет эти действия с использованием инструментария диффузионных трансформеров в контексте. Мы тщательно оцениваем ChatDiT на IDEA-Bench arXiv:2412.11767, включающем 100 задач дизайна из реального мира и 275 случаев с разнообразными инструкциями и различным количеством входных и целевых изображений. Несмотря на свою простоту и обучение без тренировки, ChatDiT превосходит всех конкурентов, включая тех, специально разработанных и обученных на обширных мультитасковых наборах данных. Мы также выявляем основные ограничения предварительно обученных DiTs в нулевой адаптации к задачам. Мы предоставляем весь код, агентов, результаты и промежуточные выходные данные для облегчения дальнейших исследований на https://github.com/ali-vilab/ChatDiT
English
Recent research arXiv:2410.15027 arXiv:2410.23775 has highlighted the
inherent in-context generation capabilities of pretrained diffusion
transformers (DiTs), enabling them to seamlessly adapt to diverse visual tasks
with minimal or no architectural modifications. These capabilities are unlocked
by concatenating self-attention tokens across multiple input and target images,
combined with grouped and masked generation pipelines. Building upon this
foundation, we present ChatDiT, a zero-shot, general-purpose, and interactive
visual generation framework that leverages pretrained diffusion transformers in
their original form, requiring no additional tuning, adapters, or
modifications. Users can interact with ChatDiT to create interleaved text-image
articles, multi-page picture books, edit images, design IP derivatives, or
develop character design settings, all through free-form natural language
across one or more conversational rounds. At its core, ChatDiT employs a
multi-agent system comprising three key components: an Instruction-Parsing
agent that interprets user-uploaded images and instructions, a
Strategy-Planning agent that devises single-step or multi-step generation
actions, and an Execution agent that performs these actions using an in-context
toolkit of diffusion transformers. We thoroughly evaluate ChatDiT on IDEA-Bench
arXiv:2412.11767, comprising 100 real-world design tasks and 275 cases with
diverse instructions and varying numbers of input and target images. Despite
its simplicity and training-free approach, ChatDiT surpasses all competitors,
including those specifically designed and trained on extensive multi-task
datasets. We further identify key limitations of pretrained DiTs in zero-shot
adapting to tasks. We release all code, agents, results, and intermediate
outputs to facilitate further research at https://github.com/ali-vilab/ChatDiTSummary
AI-Generated Summary