ChatPaper.aiChatPaper

AniClipart: 텍스트-비디오 사전 지식을 활용한 클립아트 애니메이션

AniClipart: Clipart Animation with Text-to-Video Priors

April 18, 2024
저자: Ronghuan Wu, Wanchao Su, Kede Ma, Jing Liao
cs.AI

초록

클립아트는 미리 제작된 그래픽 아트 형태로, 시각적 콘텐츠를 쉽고 효율적으로 표현할 수 있는 방법을 제공합니다. 정적인 클립아트 이미지를 동작 시퀀스로 변환하는 전통적인 워크플로우는 리깅, 키 애니메이션, 인비트윈과 같은 복잡한 단계를 포함하여 번거롭고 시간이 많이 소요됩니다. 최근 텍스트-투-비디오 생성 기술의 발전은 이러한 문제를 해결할 수 있는 큰 잠재력을 가지고 있습니다. 그러나 텍스트-투-비디오 생성 모델을 직접 적용할 경우, 클립아트 이미지의 시각적 정체성을 유지하거나 만화 스타일의 동작을 생성하는 데 어려움을 겪어 만족스러운 애니메이션 결과를 얻기 어렵습니다. 본 논문에서는 텍스트-투-비디오 사전 지식을 활용하여 정적인 클립아트 이미지를 고품질의 동작 시퀀스로 변환하는 AniClipart 시스템을 소개합니다. 만화 스타일의 부드러운 동작을 생성하기 위해, 먼저 클립아트 이미지의 키포인트 위에 베지어 곡선을 정의하여 동작 정규화를 수행합니다. 그런 다음, 사전 학습된 텍스트-투-비디오 확산 모델 내에 내재된 자연스러운 동작 지식을 인코딩한 Video Score Distillation Sampling (VSDS) 손실을 최적화하여 키포인트의 동작 궤적을 제공된 텍스트 프롬프트와 정렬합니다. 미분 가능한 As-Rigid-As-Possible 형태 변형 알고리즘을 통해, 변형 강성을 유지하면서도 우리의 방법은 종단 간 최적화가 가능합니다. 실험 결과는 제안된 AniClipart가 텍스트-비디오 정렬, 시각적 정체성 보존, 동작 일관성 측면에서 기존의 이미지-투-비디오 생성 모델을 지속적으로 능가함을 보여줍니다. 또한, AniClipart의 다양성을 입증하기 위해, 토폴로지 변화를 허용하는 레이어드 애니메이션과 같은 더 넓은 범위의 애니메이션 형식을 생성하도록 적용한 사례를 소개합니다.
English
Clipart, a pre-made graphic art form, offers a convenient and efficient way of illustrating visual content. Traditional workflows to convert static clipart images into motion sequences are laborious and time-consuming, involving numerous intricate steps like rigging, key animation and in-betweening. Recent advancements in text-to-video generation hold great potential in resolving this problem. Nevertheless, direct application of text-to-video generation models often struggles to retain the visual identity of clipart images or generate cartoon-style motions, resulting in unsatisfactory animation outcomes. In this paper, we introduce AniClipart, a system that transforms static clipart images into high-quality motion sequences guided by text-to-video priors. To generate cartoon-style and smooth motion, we first define B\'{e}zier curves over keypoints of the clipart image as a form of motion regularization. We then align the motion trajectories of the keypoints with the provided text prompt by optimizing the Video Score Distillation Sampling (VSDS) loss, which encodes adequate knowledge of natural motion within a pretrained text-to-video diffusion model. With a differentiable As-Rigid-As-Possible shape deformation algorithm, our method can be end-to-end optimized while maintaining deformation rigidity. Experimental results show that the proposed AniClipart consistently outperforms existing image-to-video generation models, in terms of text-video alignment, visual identity preservation, and motion consistency. Furthermore, we showcase the versatility of AniClipart by adapting it to generate a broader array of animation formats, such as layered animation, which allows topological changes.

Summary

AI-Generated Summary

PDF131December 15, 2024