ChatDiT: Un Referente Sin Entrenamiento para Conversaciones de Formato Libre Agnósticas al Tarea con Transformadores de Difusión
ChatDiT: A Training-Free Baseline for Task-Agnostic Free-Form Chatting with Diffusion Transformers
December 17, 2024
Autores: Lianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Chen Liang, Tong Shen, Han Zhang, Huanzhang Dou, Yu Liu, Jingren Zhou
cs.AI
Resumen
Investigaciones recientes arXiv:2410.15027 arXiv:2410.23775 han destacado las capacidades inherentes de generación en contexto de transformadores de difusión preentrenados (DiTs), permitiéndoles adaptarse sin problemas a diversas tareas visuales con modificaciones arquitectónicas mínimas o nulas. Estas capacidades se desbloquean al concatenar tokens de autoatención a través de múltiples imágenes de entrada y objetivo, combinados con tuberías de generación agrupadas y enmascaradas. Sobre esta base, presentamos ChatDiT, un marco de generación visual interactivo, de propósito general y sin ajuste previo, que aprovecha los transformadores de difusión preentrenados en su forma original, sin necesidad de ajustes adicionales, adaptadores o modificaciones. Los usuarios pueden interactuar con ChatDiT para crear artículos de texto-imagen entrelazados, libros de imágenes de varias páginas, editar imágenes, diseñar derivados de propiedad intelectual o desarrollar configuraciones de diseño de personajes, todo a través de lenguaje natural de forma libre a lo largo de una o más rondas de conversación. En su núcleo, ChatDiT emplea un sistema multiagente que consta de tres componentes clave: un agente de Análisis de Instrucciones que interpreta imágenes e instrucciones cargadas por el usuario, un agente de Planificación de Estrategias que diseña acciones de generación de un solo paso o de varios pasos, y un agente de Ejecución que lleva a cabo estas acciones utilizando un conjunto de herramientas de transformadores de difusión en contexto. Evaluamos exhaustivamente ChatDiT en IDEA-Bench arXiv:2412.11767, que comprende 100 tareas de diseño del mundo real y 275 casos con instrucciones diversas y números variables de imágenes de entrada y objetivo. A pesar de su simplicidad y enfoque sin entrenamiento, ChatDiT supera a todos los competidores, incluidos aquellos diseñados y entrenados específicamente en extensos conjuntos de datos multi-tarea. Identificamos además limitaciones clave de los DiTs preentrenados en la adaptación sin ajuste previo a tareas. Publicamos todo el código, agentes, resultados y salidas intermedias para facilitar investigaciones adicionales en https://github.com/ali-vilab/ChatDiT
English
Recent research arXiv:2410.15027 arXiv:2410.23775 has highlighted the
inherent in-context generation capabilities of pretrained diffusion
transformers (DiTs), enabling them to seamlessly adapt to diverse visual tasks
with minimal or no architectural modifications. These capabilities are unlocked
by concatenating self-attention tokens across multiple input and target images,
combined with grouped and masked generation pipelines. Building upon this
foundation, we present ChatDiT, a zero-shot, general-purpose, and interactive
visual generation framework that leverages pretrained diffusion transformers in
their original form, requiring no additional tuning, adapters, or
modifications. Users can interact with ChatDiT to create interleaved text-image
articles, multi-page picture books, edit images, design IP derivatives, or
develop character design settings, all through free-form natural language
across one or more conversational rounds. At its core, ChatDiT employs a
multi-agent system comprising three key components: an Instruction-Parsing
agent that interprets user-uploaded images and instructions, a
Strategy-Planning agent that devises single-step or multi-step generation
actions, and an Execution agent that performs these actions using an in-context
toolkit of diffusion transformers. We thoroughly evaluate ChatDiT on IDEA-Bench
arXiv:2412.11767, comprising 100 real-world design tasks and 275 cases with
diverse instructions and varying numbers of input and target images. Despite
its simplicity and training-free approach, ChatDiT surpasses all competitors,
including those specifically designed and trained on extensive multi-task
datasets. We further identify key limitations of pretrained DiTs in zero-shot
adapting to tasks. We release all code, agents, results, and intermediate
outputs to facilitate further research at https://github.com/ali-vilab/ChatDiTSummary
AI-Generated Summary