ChatPaper.aiChatPaper

스토리 어댑터: 장거리 이야기 시각화를 위한 훈련 없는 반복 프레임워크

Story-Adapter: A Training-free Iterative Framework for Long Story Visualization

October 8, 2024
저자: Jiawei Mao, Xiaoke Huang, Yunfei Xie, Yuanqi Chang, Mude Hui, Bingjie Xu, Yuyin Zhou
cs.AI

초록

이야기 시각화는 이야기를 기반으로 일관된 이미지를 생성하는 작업으로, 특히 확산 모델과 같은 텍스트-이미지 모델의 등장으로 상당한 발전을 이루었습니다. 그러나 의미 일관성 유지, 고품질의 세밀한 상호작용 생성, 그리고 계산적 실행 가능성 보장은 특히 긴 이야기 시각화(예: 최대 100프레임)에서 여전히 어려운 문제입니다. 본 연구에서는 긴 이야기의 생성 능력을 향상시키기 위한 훈련 불필요하고 계산적으로 효율적인 프레임워크인 Story-Adapter를 제안합니다. 구체적으로, 이전 반복에서 생성된 모든 이미지와 텍스트 프롬프트를 활용하여 각 생성된 이미지를 정제하는 반복적 패러다임을 제안합니다. 우리의 프레임워크의 핵심은 훈련 불필요한 전역 참조 교차-주의 모듈로, 이전 반복에서 생성된 모든 이미지를 집계하여 전체 이야기 전체에 걸쳐 의미 일관성을 유지하고, 전역 임베딩을 통해 계산 비용을 최소화합니다. 이 반복적인 과정은 텍스트 제약을 반복적으로 통합함으로써 이미지 생성을 점진적으로 최적화하여 더 정확하고 세밀한 상호작용을 얻게 됩니다. 광범위한 실험을 통해 Story-Adapter의 우수성이 검증되었으며, 특히 긴 이야기 시나리오에서 세밀한 상호작용을 위한 의미 일관성과 생성 능력을 향상시킵니다. 프로젝트 페이지와 관련 코드는 https://jwmao1.github.io/storyadapter를 통해 액세스할 수 있습니다.
English
Story visualization, the task of generating coherent images based on a narrative, has seen significant advancements with the emergence of text-to-image models, particularly diffusion models. However, maintaining semantic consistency, generating high-quality fine-grained interactions, and ensuring computational feasibility remain challenging, especially in long story visualization (i.e., up to 100 frames). In this work, we propose a training-free and computationally efficient framework, termed Story-Adapter, to enhance the generative capability of long stories. Specifically, we propose an iterative paradigm to refine each generated image, leveraging both the text prompt and all generated images from the previous iteration. Central to our framework is a training-free global reference cross-attention module, which aggregates all generated images from the previous iteration to preserve semantic consistency across the entire story, while minimizing computational costs with global embeddings. This iterative process progressively optimizes image generation by repeatedly incorporating text constraints, resulting in more precise and fine-grained interactions. Extensive experiments validate the superiority of Story-Adapter in improving both semantic consistency and generative capability for fine-grained interactions, particularly in long story scenarios. The project page and associated code can be accessed via https://jwmao1.github.io/storyadapter .

Summary

AI-Generated Summary

PDF192November 16, 2024