ChatPaper.aiChatPaper

Personalize Qualquer Coisa de Graça com Transformadores de Difusão

Personalize Anything for Free with Diffusion Transformer

March 16, 2025
Autores: Haoran Feng, Zehuan Huang, Lin Li, Hairong Lv, Lu Sheng
cs.AI

Resumo

A geração de imagens personalizada visa produzir imagens de conceitos especificados pelo usuário, ao mesmo tempo em que permite edições flexíveis. Abordagens recentes que dispensam treinamento, embora apresentem maior eficiência computacional em comparação com métodos baseados em treinamento, enfrentam dificuldades com a preservação de identidade, aplicabilidade e compatibilidade com transformadores de difusão (DiTs). Neste artigo, exploramos o potencial inexplorado dos DiTs, onde simplesmente substituir tokens de remoção de ruído por aqueles de um sujeito de referência alcança a reconstrução do sujeito em zero-shot. Essa técnica simples, porém eficaz, de injeção de características desbloqueia diversos cenários, desde personalização até edição de imagens. Com base nessa observação, propomos o Personalize Anything, um framework que dispensa treinamento e alcança a geração de imagens personalizadas em DiTs por meio de: 1) substituição de tokens adaptativa ao timestep, que reforça a consistência do sujeito por meio de injeção em estágios iniciais e aumenta a flexibilidade por meio de regularização em estágios tardios, e 2) estratégias de perturbação de patches para aumentar a diversidade estrutural. Nosso método suporta de forma integrada a geração guiada por layout, personalização de múltiplos sujeitos e edição controlada por máscara. Avaliações demonstram desempenho de ponta em preservação de identidade e versatilidade. Nosso trabalho estabelece novos insights sobre DiTs enquanto oferece um paradigma prático para personalização eficiente.
English
Personalized image generation aims to produce images of user-specified concepts while enabling flexible editing. Recent training-free approaches, while exhibit higher computational efficiency than training-based methods, struggle with identity preservation, applicability, and compatibility with diffusion transformers (DiTs). In this paper, we uncover the untapped potential of DiT, where simply replacing denoising tokens with those of a reference subject achieves zero-shot subject reconstruction. This simple yet effective feature injection technique unlocks diverse scenarios, from personalization to image editing. Building upon this observation, we propose Personalize Anything, a training-free framework that achieves personalized image generation in DiT through: 1) timestep-adaptive token replacement that enforces subject consistency via early-stage injection and enhances flexibility through late-stage regularization, and 2) patch perturbation strategies to boost structural diversity. Our method seamlessly supports layout-guided generation, multi-subject personalization, and mask-controlled editing. Evaluations demonstrate state-of-the-art performance in identity preservation and versatility. Our work establishes new insights into DiTs while delivering a practical paradigm for efficient personalization.

Summary

AI-Generated Summary

PDF445March 18, 2025