MagicScroll: 시각적 스토리텔링을 위한 비전형적 종횡비 이미지 생성 - 다층적 의미 인식 노이즈 제거 기법
MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual Storytelling via Multi-Layered Semantic-Aware Denoising
December 18, 2023
저자: Bingyuan Wang, Hengyu Meng, Zeyu Cai, Lanjiong Li, Yue Ma, Qifeng Chen, Zeyu Wang
cs.AI
초록
시각적 스토리텔링은 종종 두루마리 그림, 만화 스트립, 파노라마와 같은 비전형적인 화면비 이미지를 사용하여 표현력 있고 매력적인 내러티브를 창조합니다. 생성형 AI는 창의적인 산업을 재구성할 잠재력을 보이며 큰 성공을 거두었지만, 임의의 크기와 제어 가능한 스타일, 개념, 레이아웃을 갖춘 일관되고 흥미로운 콘텐츠를 생성하는 것은 여전히 과제로 남아 있습니다. 이러한 요소들은 시각적 스토리텔링에 필수적입니다. 반복적인 콘텐츠, 스타일 불일치, 제어력 부족 등 이전 방법들의 단점을 극복하기 위해, 우리는 새로운 의미 인식 노이즈 제거 과정을 갖춘 다층적이고 점진적인 확산 기반 이미지 생성 프레임워크인 MagicScroll을 제안합니다. 이 모델은 텍스트, 이미지, 레이아웃 조건을 통해 객체, 장면, 배경 수준에서 생성된 이미지에 대한 세밀한 제어를 가능하게 합니다. 또한, 우리는 그림, 만화, 영화적 파노라마와 같은 매체를 포함한 시각적 스토리텔링을 위한 비전형적인 화면비 이미지 생성을 위한 첫 번째 벤치마크를 구축하고, 체계적인 평가를 위한 맞춤형 지표를 설정했습니다. 비교 및 제거 연구를 통해 MagicScroll은 내러티브 텍스트와의 일치, 시각적 일관성 개선, 관객 참여 측면에서 유망한 결과를 보여줍니다. 우리는 AI 연구자와 시각적 스토리텔링을 포함한 창의적 실무자 간의 더 나은 협력을 위해 코드와 벤치마크를 공개할 계획입니다.
English
Visual storytelling often uses nontypical aspect-ratio images like scroll
paintings, comic strips, and panoramas to create an expressive and compelling
narrative. While generative AI has achieved great success and shown the
potential to reshape the creative industry, it remains a challenge to generate
coherent and engaging content with arbitrary size and controllable style,
concept, and layout, all of which are essential for visual storytelling. To
overcome the shortcomings of previous methods including repetitive content,
style inconsistency, and lack of controllability, we propose MagicScroll, a
multi-layered, progressive diffusion-based image generation framework with a
novel semantic-aware denoising process. The model enables fine-grained control
over the generated image on object, scene, and background levels with text,
image, and layout conditions. We also establish the first benchmark for
nontypical aspect-ratio image generation for visual storytelling including
mediums like paintings, comics, and cinematic panoramas, with customized
metrics for systematic evaluation. Through comparative and ablation studies,
MagicScroll showcases promising results in aligning with the narrative text,
improving visual coherence, and engaging the audience. We plan to release the
code and benchmark in the hope of a better collaboration between AI researchers
and creative practitioners involving visual storytelling.