ChatPaper.aiChatPaper

무료로 무엇이든 개인화하는 Diffusion Transformer

Personalize Anything for Free with Diffusion Transformer

March 16, 2025
저자: Haoran Feng, Zehuan Huang, Lin Li, Hairong Lv, Lu Sheng
cs.AI

초록

개인화 이미지 생성은 사용자가 지정한 개념의 이미지를 생성하면서도 유연한 편집을 가능하게 하는 것을 목표로 합니다. 최근의 학습 없이 접근하는 방법들은 학습 기반 방법보다 계산 효율성이 높지만, 정체성 보존, 적용 가능성, 그리고 확산 트랜스포머(DiT)와의 호환성에서 어려움을 겪고 있습니다. 본 논문에서는 DiT의 잠재력을 발견하여, 단순히 디노이징 토큰을 참조 대상의 토큰으로 교체함으로써 제로샷 대상 재구성을 달성할 수 있음을 보여줍니다. 이 간단하지만 효과적인 특징 주입 기술은 개인화부터 이미지 편집까지 다양한 시나리오를 가능하게 합니다. 이러한 관찰을 바탕으로, 우리는 Personalize Anything이라는 학습 없는 프레임워크를 제안합니다. 이 프레임워크는 DiT에서 개인화 이미지 생성을 달성하기 위해: 1) 초기 단계 주입을 통해 대상 일관성을 강화하고 후기 단계 정규화를 통해 유연성을 높이는 시간 단계 적응형 토큰 교체, 그리고 2) 구조적 다양성을 증진시키는 패치 교란 전략을 사용합니다. 우리의 방법은 레이아웃 기반 생성, 다중 대상 개인화, 그리고 마스크 제어 편집을 원활하게 지원합니다. 평가 결과, 정체성 보존과 다용성에서 최신 기술을 능가하는 성능을 보여줍니다. 우리의 연구는 DiT에 대한 새로운 통찰을 제공하면서 효율적인 개인화를 위한 실용적인 패러다임을 제시합니다.
English
Personalized image generation aims to produce images of user-specified concepts while enabling flexible editing. Recent training-free approaches, while exhibit higher computational efficiency than training-based methods, struggle with identity preservation, applicability, and compatibility with diffusion transformers (DiTs). In this paper, we uncover the untapped potential of DiT, where simply replacing denoising tokens with those of a reference subject achieves zero-shot subject reconstruction. This simple yet effective feature injection technique unlocks diverse scenarios, from personalization to image editing. Building upon this observation, we propose Personalize Anything, a training-free framework that achieves personalized image generation in DiT through: 1) timestep-adaptive token replacement that enforces subject consistency via early-stage injection and enhances flexibility through late-stage regularization, and 2) patch perturbation strategies to boost structural diversity. Our method seamlessly supports layout-guided generation, multi-subject personalization, and mask-controlled editing. Evaluations demonstrate state-of-the-art performance in identity preservation and versatility. Our work establishes new insights into DiTs while delivering a practical paradigm for efficient personalization.

Summary

AI-Generated Summary

PDF445March 18, 2025