ChatDiT: Ein Training-freier Ausgangspunkt für aufgabenagnostisches freies Chatting mit Diffusion-Transformern.
ChatDiT: A Training-Free Baseline for Task-Agnostic Free-Form Chatting with Diffusion Transformers
December 17, 2024
Autoren: Lianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Chen Liang, Tong Shen, Han Zhang, Huanzhang Dou, Yu Liu, Jingren Zhou
cs.AI
Zusammenfassung
Aktuelle Forschung arXiv:2410.15027 arXiv:2410.23775 hat die inhärenten In-Context-Generierungsfähigkeiten von vortrainierten Diffusions-Transformern (DiTs) hervorgehoben, die es ihnen ermöglichen, sich nahtlos an verschiedene visuelle Aufgaben anzupassen, mit minimalen oder keinen architektonischen Modifikationen. Diese Fähigkeiten werden durch die Verkettung von Self-Attention-Token über mehrere Eingabe- und Zielbilder freigeschaltet, kombiniert mit gruppierten und maskierten Generierungspipelines. Aufbauend auf diesem Fundament präsentieren wir ChatDiT, ein Zero-Shot-, Allzweck- und interaktives visuelles Generierungsframework, das vortrainierte Diffusions-Transformer in ihrer Originalform nutzt, ohne zusätzliche Abstimmung, Adapter oder Modifikationen zu benötigen. Benutzer können mit ChatDiT interagieren, um ineinander verschachtelte Text-Bild-Artikel, mehrseitige Bildbücher zu erstellen, Bilder zu bearbeiten, IP-Derivate zu entwerfen oder Charakterdesign-Einstellungen zu entwickeln, alles durch freiformnatürliche Sprache über eine oder mehrere Gesprächsrunden hinweg. Im Kern verwendet ChatDiT ein Multi-Agenten-System, bestehend aus drei Schlüsselkomponenten: einem Anweisungs-Analyse-Agenten, der vom Benutzer hochgeladene Bilder und Anweisungen interpretiert, einem Strategie-Planungs-Agenten, der Einzelschritt- oder Mehrschritt-Generierungsaktionen entwirft, und einem Ausführungs-Agenten, der diese Aktionen mithilfe eines In-Context-Toolkits von Diffusions-Transformern durchführt. Wir evaluieren ChatDiT gründlich auf IDEA-Bench arXiv:2412.11767, bestehend aus 100 realen Designaufgaben und 275 Fällen mit unterschiedlichen Anweisungen und variierenden Anzahlen von Eingabe- und Zielbildern. Trotz seiner Einfachheit und Trainingsfreiheit übertrifft ChatDiT alle Konkurrenten, einschließlich derjenigen, die speziell für umfangreiche Multi-Task-Datensätze entworfen und trainiert wurden. Wir identifizieren auch wesentliche Einschränkungen vortrainierter DiTs bei der Zero-Shot-Anpassung an Aufgaben. Wir veröffentlichen den gesamten Code, Agenten, Ergebnisse und Zwischenausgaben, um weitere Forschung zu erleichtern unter https://github.com/ali-vilab/ChatDiT
English
Recent research arXiv:2410.15027 arXiv:2410.23775 has highlighted the
inherent in-context generation capabilities of pretrained diffusion
transformers (DiTs), enabling them to seamlessly adapt to diverse visual tasks
with minimal or no architectural modifications. These capabilities are unlocked
by concatenating self-attention tokens across multiple input and target images,
combined with grouped and masked generation pipelines. Building upon this
foundation, we present ChatDiT, a zero-shot, general-purpose, and interactive
visual generation framework that leverages pretrained diffusion transformers in
their original form, requiring no additional tuning, adapters, or
modifications. Users can interact with ChatDiT to create interleaved text-image
articles, multi-page picture books, edit images, design IP derivatives, or
develop character design settings, all through free-form natural language
across one or more conversational rounds. At its core, ChatDiT employs a
multi-agent system comprising three key components: an Instruction-Parsing
agent that interprets user-uploaded images and instructions, a
Strategy-Planning agent that devises single-step or multi-step generation
actions, and an Execution agent that performs these actions using an in-context
toolkit of diffusion transformers. We thoroughly evaluate ChatDiT on IDEA-Bench
arXiv:2412.11767, comprising 100 real-world design tasks and 275 cases with
diverse instructions and varying numbers of input and target images. Despite
its simplicity and training-free approach, ChatDiT surpasses all competitors,
including those specifically designed and trained on extensive multi-task
datasets. We further identify key limitations of pretrained DiTs in zero-shot
adapting to tasks. We release all code, agents, results, and intermediate
outputs to facilitate further research at https://github.com/ali-vilab/ChatDiTSummary
AI-Generated Summary