ChatPaper.aiChatPaper

Personaliza Cualquier Cosa Gratis con Transformadores de Difusión

Personalize Anything for Free with Diffusion Transformer

March 16, 2025
Autores: Haoran Feng, Zehuan Huang, Lin Li, Hairong Lv, Lu Sheng
cs.AI

Resumen

La generación de imágenes personalizada tiene como objetivo producir imágenes de conceptos especificados por el usuario, permitiendo al mismo tiempo una edición flexible. Los enfoques recientes que no requieren entrenamiento, aunque exhiben una mayor eficiencia computacional que los métodos basados en entrenamiento, enfrentan dificultades en la preservación de la identidad, la aplicabilidad y la compatibilidad con los transformadores de difusión (DiTs). En este artículo, descubrimos el potencial no explotado de los DiT, donde simplemente reemplazar los tokens de eliminación de ruido con los de un sujeto de referencia logra una reconstrucción de sujeto en modo zero-shot. Esta técnica de inyección de características, simple pero efectiva, desbloquea diversos escenarios, desde la personalización hasta la edición de imágenes. Basándonos en esta observación, proponemos Personalize Anything, un marco sin entrenamiento que logra la generación de imágenes personalizada en DiT mediante: 1) la sustitución de tokens adaptativa al paso de tiempo, que refuerza la consistencia del sujeto mediante inyección en etapas tempranas y mejora la flexibilidad a través de regularización en etapas tardías, y 2) estrategias de perturbación de parches para aumentar la diversidad estructural. Nuestro método soporta de manera fluida la generación guiada por diseño, la personalización de múltiples sujetos y la edición controlada por máscaras. Las evaluaciones demuestran un rendimiento de vanguardia en la preservación de la identidad y la versatilidad. Nuestro trabajo establece nuevas perspectivas sobre los DiT mientras ofrece un paradigma práctico para la personalización eficiente.
English
Personalized image generation aims to produce images of user-specified concepts while enabling flexible editing. Recent training-free approaches, while exhibit higher computational efficiency than training-based methods, struggle with identity preservation, applicability, and compatibility with diffusion transformers (DiTs). In this paper, we uncover the untapped potential of DiT, where simply replacing denoising tokens with those of a reference subject achieves zero-shot subject reconstruction. This simple yet effective feature injection technique unlocks diverse scenarios, from personalization to image editing. Building upon this observation, we propose Personalize Anything, a training-free framework that achieves personalized image generation in DiT through: 1) timestep-adaptive token replacement that enforces subject consistency via early-stage injection and enhances flexibility through late-stage regularization, and 2) patch perturbation strategies to boost structural diversity. Our method seamlessly supports layout-guided generation, multi-subject personalization, and mask-controlled editing. Evaluations demonstrate state-of-the-art performance in identity preservation and versatility. Our work establishes new insights into DiTs while delivering a practical paradigm for efficient personalization.

Summary

AI-Generated Summary

PDF445March 18, 2025