ChatPaper.aiChatPaper

PIA: 텍스트-이미지 모델의 플러그 앤 플레이 모듈을 통한 개인화된 이미지 애니메이터

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

December 21, 2023
저자: Yiming Zhang, Zhening Xing, Yanhong Zeng, Youqing Fang, Kai Chen
cs.AI

초록

최근 개인화된 텍스트-이미지(T2I) 모델의 발전은 콘텐츠 제작에 혁신을 가져왔으며, 비전문가들도 독특한 스타일의 멋진 이미지를 생성할 수 있게 되었습니다. 그러나 이러한 개인화된 이미지에 텍스트를 통해 현실적인 동작을 추가하는 것은 독특한 스타일을 유지하고, 높은 충실도의 디테일을 보존하며, 텍스트에 의한 동작 제어성을 달성하는 데 있어 상당한 어려움을 안고 있습니다. 본 논문에서는 조건 이미지와의 정렬, 텍스트에 의한 동작 제어성, 그리고 특별한 튜닝 없이 다양한 개인화된 T2I 모델과의 호환성을 우수하게 달성하는 PIA(Personalized Image Animator)를 소개합니다. 이러한 목표를 달성하기 위해 PIA는 잘 훈련된 시간적 정렬 레이어를 기반으로 한 기본 T2I 모델을 구축하여, 모든 개인화된 T2I 모델을 이미지 애니메이션 모델로 원활하게 변환할 수 있도록 합니다. PIA의 핵심 구성 요소는 조건 모듈의 도입으로, 이 모듈은 조건 프레임과 프레임 간 유사성을 입력으로 사용하여, 잠재 공간에서 개별 프레임 합성을 위한 유사성 힌트에 따라 외관 정보를 전달합니다. 이 설계는 외관 관련 이미지 정렬의 어려움을 완화하고, 동작 관련 지침과의 정렬에 더 집중할 수 있도록 합니다.
English
Recent advancements in personalized text-to-image (T2I) models have revolutionized content creation, empowering non-experts to generate stunning images with unique styles. While promising, adding realistic motions into these personalized images by text poses significant challenges in preserving distinct styles, high-fidelity details, and achieving motion controllability by text. In this paper, we present PIA, a Personalized Image Animator that excels in aligning with condition images, achieving motion controllability by text, and the compatibility with various personalized T2I models without specific tuning. To achieve these goals, PIA builds upon a base T2I model with well-trained temporal alignment layers, allowing for the seamless transformation of any personalized T2I model into an image animation model. A key component of PIA is the introduction of the condition module, which utilizes the condition frame and inter-frame affinity as input to transfer appearance information guided by the affinity hint for individual frame synthesis in the latent space. This design mitigates the challenges of appearance-related image alignment within and allows for a stronger focus on aligning with motion-related guidance.
PDF201December 15, 2024