ChatPaper.aiChatPaper

StoryDiffusion: 장거리 이미지 및 비디오 생성을 위한 일관된 자기 주의 메커니즘

StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

May 2, 2024
저자: Yupeng Zhou, Daquan Zhou, Ming-Ming Cheng, Jiashi Feng, Qibin Hou
cs.AI

초록

최근의 확산 기반 생성 모델에서는, 특히 주제와 복잡한 디테일을 포함한 일련의 생성 이미지들 간의 일관된 콘텐츠를 유지하는 것이 중요한 과제로 대두되고 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 '일관된 자기 주의(Consistent Self-Attention)'라는 새로운 자기 주의 계산 방식을 제안합니다. 이 방법은 생성된 이미지들 간의 일관성을 크게 향상시키며, 널리 사용되는 사전 학습된 확산 기반 텍스트-이미지 모델을 제로샷 방식으로 보강합니다. 또한, 우리의 방법을 장범위 비디오 생성으로 확장하기 위해 '의미 공간 시간적 모션 예측 모듈(Semantic Motion Predictor)'이라는 새로운 모듈을 도입했습니다. 이 모듈은 두 제공된 이미지 간의 모션 조건을 의미 공간에서 추정하도록 학습되며, 생성된 이미지 시퀀스를 부드러운 전환과 일관된 주제를 가진 비디오로 변환합니다. 특히 장편 비디오 생성에서, 이 모듈은 잠재 공간만을 기반으로 한 모듈보다 훨씬 더 안정적인 결과를 제공합니다. 이 두 가지 새로운 구성 요소를 결합함으로써, 우리의 프레임워크인 'StoryDiffusion'은 텍스트 기반 스토리를 다양한 콘텐츠를 포함한 일관된 이미지나 비디오로 표현할 수 있습니다. 제안된 StoryDiffusion은 이미지와 비디오를 통한 시각적 스토리 생성 분야에서 선구적인 탐구를 포함하고 있으며, 이를 통해 아키텍처 수정 측면에서 더 많은 연구가 촉진되기를 기대합니다. 우리의 코드는 https://github.com/HVision-NKU/StoryDiffusion에서 공개되어 있습니다.
English
For recent diffusion-based generative models, maintaining consistent content across a series of generated images, especially those containing subjects and complex details, presents a significant challenge. In this paper, we propose a new way of self-attention calculation, termed Consistent Self-Attention, that significantly boosts the consistency between the generated images and augments prevalent pretrained diffusion-based text-to-image models in a zero-shot manner. To extend our method to long-range video generation, we further introduce a novel semantic space temporal motion prediction module, named Semantic Motion Predictor. It is trained to estimate the motion conditions between two provided images in the semantic spaces. This module converts the generated sequence of images into videos with smooth transitions and consistent subjects that are significantly more stable than the modules based on latent spaces only, especially in the context of long video generation. By merging these two novel components, our framework, referred to as StoryDiffusion, can describe a text-based story with consistent images or videos encompassing a rich variety of contents. The proposed StoryDiffusion encompasses pioneering explorations in visual story generation with the presentation of images and videos, which we hope could inspire more research from the aspect of architectural modifications. Our code is made publicly available at https://github.com/HVision-NKU/StoryDiffusion.

Summary

AI-Generated Summary

PDF573December 15, 2024