Personalize Qualquer Coisa de Graça com Transformadores de Difusão
Personalize Anything for Free with Diffusion Transformer
March 16, 2025
Autores: Haoran Feng, Zehuan Huang, Lin Li, Hairong Lv, Lu Sheng
cs.AI
Resumo
A geração de imagens personalizada visa produzir imagens de conceitos especificados pelo usuário, ao mesmo tempo em que permite edições flexíveis. Abordagens recentes que dispensam treinamento, embora apresentem maior eficiência computacional em comparação com métodos baseados em treinamento, enfrentam dificuldades com a preservação de identidade, aplicabilidade e compatibilidade com transformadores de difusão (DiTs). Neste artigo, exploramos o potencial inexplorado dos DiTs, onde simplesmente substituir tokens de remoção de ruído por aqueles de um sujeito de referência alcança a reconstrução do sujeito em zero-shot. Essa técnica simples, porém eficaz, de injeção de características desbloqueia diversos cenários, desde personalização até edição de imagens. Com base nessa observação, propomos o Personalize Anything, um framework que dispensa treinamento e alcança a geração de imagens personalizadas em DiTs por meio de: 1) substituição de tokens adaptativa ao timestep, que reforça a consistência do sujeito por meio de injeção em estágios iniciais e aumenta a flexibilidade por meio de regularização em estágios tardios, e 2) estratégias de perturbação de patches para aumentar a diversidade estrutural. Nosso método suporta de forma integrada a geração guiada por layout, personalização de múltiplos sujeitos e edição controlada por máscara. Avaliações demonstram desempenho de ponta em preservação de identidade e versatilidade. Nosso trabalho estabelece novos insights sobre DiTs enquanto oferece um paradigma prático para personalização eficiente.
English
Personalized image generation aims to produce images of user-specified
concepts while enabling flexible editing. Recent training-free approaches,
while exhibit higher computational efficiency than training-based methods,
struggle with identity preservation, applicability, and compatibility with
diffusion transformers (DiTs). In this paper, we uncover the untapped potential
of DiT, where simply replacing denoising tokens with those of a reference
subject achieves zero-shot subject reconstruction. This simple yet effective
feature injection technique unlocks diverse scenarios, from personalization to
image editing. Building upon this observation, we propose Personalize
Anything, a training-free framework that achieves personalized image
generation in DiT through: 1) timestep-adaptive token replacement that enforces
subject consistency via early-stage injection and enhances flexibility through
late-stage regularization, and 2) patch perturbation strategies to boost
structural diversity. Our method seamlessly supports layout-guided generation,
multi-subject personalization, and mask-controlled editing. Evaluations
demonstrate state-of-the-art performance in identity preservation and
versatility. Our work establishes new insights into DiTs while delivering a
practical paradigm for efficient personalization.Summary
AI-Generated Summary