TaleCrafter: Visualizzazione Interattiva di Storie con Personaggi Multipli
TaleCrafter: Interactive Story Visualization with Multiple Characters
May 29, 2023
Autori: Yuan Gong, Youxin Pang, Xiaodong Cun, Menghan Xia, Haoxin Chen, Longyue Wang, Yong Zhang, Xintao Wang, Ying Shan, Yujiu Yang
cs.AI
Abstract
Una visualizzazione accurata delle storie richiede diversi elementi necessari, come la coerenza dell'identità tra i fotogrammi, l'allineamento tra il testo semplice e il contenuto visivo, e una disposizione ragionevole degli oggetti nelle immagini. La maggior parte dei lavori precedenti si sforza di soddisfare questi requisiti adattando un modello da testo a immagine (T2I) su un insieme di video con lo stesso stile e gli stessi personaggi, ad esempio il dataset FlintstonesSV. Tuttavia, i modelli T2I appresi in genere faticano ad adattarsi a nuovi personaggi, scene e stili, e spesso mancano della flessibilità necessaria per modificare la disposizione delle immagini sintetizzate. Questo articolo propone un sistema per la visualizzazione interattiva generica di storie, in grado di gestire più personaggi nuovi e supportare la modifica della disposizione e della struttura locale. È sviluppato sfruttando la conoscenza pregressa di grandi modelli linguistici e T2I, addestrati su corpora massicci. Il sistema comprende quattro componenti interconnessi: generazione da storia a prompt (S2P), generazione da testo a layout (T2L), generazione controllata da testo a immagine (C-T2I), e animazione da immagine a video (I2V). Innanzitutto, il modulo S2P converte le informazioni concise della storia in prompt dettagliati richiesti per le fasi successive. Successivamente, T2L genera layout diversificati e ragionevoli basati sui prompt, offrendo agli utenti la possibilità di regolare e perfezionare il layout secondo le loro preferenze. Il componente principale, C-T2I, consente la creazione di immagini guidate da layout, schizzi e identificatori specifici per gli attori per mantenere coerenza e dettaglio nelle visualizzazioni. Infine, I2V arricchisce il processo di visualizzazione animando le immagini generate. Sono stati condotti esperimenti estesi e uno studio utente per validare l'efficacia e la flessibilità della modifica interattiva del sistema proposto.
English
Accurate Story visualization requires several necessary elements, such as
identity consistency across frames, the alignment between plain text and visual
content, and a reasonable layout of objects in images. Most previous works
endeavor to meet these requirements by fitting a text-to-image (T2I) model on a
set of videos in the same style and with the same characters, e.g., the
FlintstonesSV dataset. However, the learned T2I models typically struggle to
adapt to new characters, scenes, and styles, and often lack the flexibility to
revise the layout of the synthesized images. This paper proposes a system for
generic interactive story visualization, capable of handling multiple novel
characters and supporting the editing of layout and local structure. It is
developed by leveraging the prior knowledge of large language and T2I models,
trained on massive corpora. The system comprises four interconnected
components: story-to-prompt generation (S2P), text-to-layout generation (T2L),
controllable text-to-image generation (C-T2I), and image-to-video animation
(I2V). First, the S2P module converts concise story information into detailed
prompts required for subsequent stages. Next, T2L generates diverse and
reasonable layouts based on the prompts, offering users the ability to adjust
and refine the layout to their preference. The core component, C-T2I, enables
the creation of images guided by layouts, sketches, and actor-specific
identifiers to maintain consistency and detail across visualizations. Finally,
I2V enriches the visualization process by animating the generated images.
Extensive experiments and a user study are conducted to validate the
effectiveness and flexibility of interactive editing of the proposed system.