ChatDiT: Un Referente Sin Entrenamiento para Conversaciones de Formato Libre Agnósticas al Tarea con Transformadores de Difusión

Resumen

Investigaciones recientes arXiv:2410.15027 arXiv:2410.23775 han destacado las capacidades inherentes de generación en contexto de transformadores de difusión preentrenados (DiTs), permitiéndoles adaptarse sin problemas a diversas tareas visuales con modificaciones arquitectónicas mínimas o nulas. Estas capacidades se desbloquean al concatenar tokens de autoatención a través de múltiples imágenes de entrada y objetivo, combinados con tuberías de generación agrupadas y enmascaradas. Sobre esta base, presentamos ChatDiT, un marco de generación visual interactivo, de propósito general y sin ajuste previo, que aprovecha los transformadores de difusión preentrenados en su forma original, sin necesidad de ajustes adicionales, adaptadores o modificaciones. Los usuarios pueden interactuar con ChatDiT para crear artículos de texto-imagen entrelazados, libros de imágenes de varias páginas, editar imágenes, diseñar derivados de propiedad intelectual o desarrollar configuraciones de diseño de personajes, todo a través de lenguaje natural de forma libre a lo largo de una o más rondas de conversación. En su núcleo, ChatDiT emplea un sistema multiagente que consta de tres componentes clave: un agente de Análisis de Instrucciones que interpreta imágenes e instrucciones cargadas por el usuario, un agente de Planificación de Estrategias que diseña acciones de generación de un solo paso o de varios pasos, y un agente de Ejecución que lleva a cabo estas acciones utilizando un conjunto de herramientas de transformadores de difusión en contexto. Evaluamos exhaustivamente ChatDiT en IDEA-Bench arXiv:2412.11767, que comprende 100 tareas de diseño del mundo real y 275 casos con instrucciones diversas y números variables de imágenes de entrada y objetivo. A pesar de su simplicidad y enfoque sin entrenamiento, ChatDiT supera a todos los competidores, incluidos aquellos diseñados y entrenados específicamente en extensos conjuntos de datos multi-tarea. Identificamos además limitaciones clave de los DiTs preentrenados en la adaptación sin ajuste previo a tareas. Publicamos todo el código, agentes, resultados y salidas intermedias para facilitar investigaciones adicionales en https://github.com/ali-vilab/ChatDiT

English

Recent research arXiv:2410.15027 arXiv:2410.23775 has highlighted the inherent in-context generation capabilities of pretrained diffusion transformers (DiTs), enabling them to seamlessly adapt to diverse visual tasks with minimal or no architectural modifications. These capabilities are unlocked by concatenating self-attention tokens across multiple input and target images, combined with grouped and masked generation pipelines. Building upon this foundation, we present ChatDiT, a zero-shot, general-purpose, and interactive visual generation framework that leverages pretrained diffusion transformers in their original form, requiring no additional tuning, adapters, or modifications. Users can interact with ChatDiT to create interleaved text-image articles, multi-page picture books, edit images, design IP derivatives, or develop character design settings, all through free-form natural language across one or more conversational rounds. At its core, ChatDiT employs a multi-agent system comprising three key components: an Instruction-Parsing agent that interprets user-uploaded images and instructions, a Strategy-Planning agent that devises single-step or multi-step generation actions, and an Execution agent that performs these actions using an in-context toolkit of diffusion transformers. We thoroughly evaluate ChatDiT on IDEA-Bench arXiv:2412.11767, comprising 100 real-world design tasks and 275 cases with diverse instructions and varying numbers of input and target images. Despite its simplicity and training-free approach, ChatDiT surpasses all competitors, including those specifically designed and trained on extensive multi-task datasets. We further identify key limitations of pretrained DiTs in zero-shot adapting to tasks. We release all code, agents, results, and intermediate outputs to facilitate further research at https://github.com/ali-vilab/ChatDiT

ChatDiT: Un Referente Sin Entrenamiento para Conversaciones de Formato Libre Agnósticas al Tarea con Transformadores de Difusión

ChatDiT: A Training-Free Baseline for Task-Agnostic Free-Form Chatting with Diffusion Transformers

Resumen

Support