ChatDiT: Ein Training-freier Ausgangspunkt für aufgabenagnostisches freies Chatting mit Diffusion-Transformern.

papers.abstract

Aktuelle Forschung arXiv:2410.15027 arXiv:2410.23775 hat die inhärenten In-Context-Generierungsfähigkeiten von vortrainierten Diffusions-Transformern (DiTs) hervorgehoben, die es ihnen ermöglichen, sich nahtlos an verschiedene visuelle Aufgaben anzupassen, mit minimalen oder keinen architektonischen Modifikationen. Diese Fähigkeiten werden durch die Verkettung von Self-Attention-Token über mehrere Eingabe- und Zielbilder freigeschaltet, kombiniert mit gruppierten und maskierten Generierungspipelines. Aufbauend auf diesem Fundament präsentieren wir ChatDiT, ein Zero-Shot-, Allzweck- und interaktives visuelles Generierungsframework, das vortrainierte Diffusions-Transformer in ihrer Originalform nutzt, ohne zusätzliche Abstimmung, Adapter oder Modifikationen zu benötigen. Benutzer können mit ChatDiT interagieren, um ineinander verschachtelte Text-Bild-Artikel, mehrseitige Bildbücher zu erstellen, Bilder zu bearbeiten, IP-Derivate zu entwerfen oder Charakterdesign-Einstellungen zu entwickeln, alles durch freiformnatürliche Sprache über eine oder mehrere Gesprächsrunden hinweg. Im Kern verwendet ChatDiT ein Multi-Agenten-System, bestehend aus drei Schlüsselkomponenten: einem Anweisungs-Analyse-Agenten, der vom Benutzer hochgeladene Bilder und Anweisungen interpretiert, einem Strategie-Planungs-Agenten, der Einzelschritt- oder Mehrschritt-Generierungsaktionen entwirft, und einem Ausführungs-Agenten, der diese Aktionen mithilfe eines In-Context-Toolkits von Diffusions-Transformern durchführt. Wir evaluieren ChatDiT gründlich auf IDEA-Bench arXiv:2412.11767, bestehend aus 100 realen Designaufgaben und 275 Fällen mit unterschiedlichen Anweisungen und variierenden Anzahlen von Eingabe- und Zielbildern. Trotz seiner Einfachheit und Trainingsfreiheit übertrifft ChatDiT alle Konkurrenten, einschließlich derjenigen, die speziell für umfangreiche Multi-Task-Datensätze entworfen und trainiert wurden. Wir identifizieren auch wesentliche Einschränkungen vortrainierter DiTs bei der Zero-Shot-Anpassung an Aufgaben. Wir veröffentlichen den gesamten Code, Agenten, Ergebnisse und Zwischenausgaben, um weitere Forschung zu erleichtern unter https://github.com/ali-vilab/ChatDiT

English

Recent research arXiv:2410.15027 arXiv:2410.23775 has highlighted the inherent in-context generation capabilities of pretrained diffusion transformers (DiTs), enabling them to seamlessly adapt to diverse visual tasks with minimal or no architectural modifications. These capabilities are unlocked by concatenating self-attention tokens across multiple input and target images, combined with grouped and masked generation pipelines. Building upon this foundation, we present ChatDiT, a zero-shot, general-purpose, and interactive visual generation framework that leverages pretrained diffusion transformers in their original form, requiring no additional tuning, adapters, or modifications. Users can interact with ChatDiT to create interleaved text-image articles, multi-page picture books, edit images, design IP derivatives, or develop character design settings, all through free-form natural language across one or more conversational rounds. At its core, ChatDiT employs a multi-agent system comprising three key components: an Instruction-Parsing agent that interprets user-uploaded images and instructions, a Strategy-Planning agent that devises single-step or multi-step generation actions, and an Execution agent that performs these actions using an in-context toolkit of diffusion transformers. We thoroughly evaluate ChatDiT on IDEA-Bench arXiv:2412.11767, comprising 100 real-world design tasks and 275 cases with diverse instructions and varying numbers of input and target images. Despite its simplicity and training-free approach, ChatDiT surpasses all competitors, including those specifically designed and trained on extensive multi-task datasets. We further identify key limitations of pretrained DiTs in zero-shot adapting to tasks. We release all code, agents, results, and intermediate outputs to facilitate further research at https://github.com/ali-vilab/ChatDiT

ChatDiT: Ein Training-freier Ausgangspunkt für aufgabenagnostisches freies Chatting mit Diffusion-Transformern.

ChatDiT: A Training-Free Baseline for Task-Agnostic Free-Form Chatting with Diffusion Transformers

papers.abstract

Support