AutoStory: Generazione di immagini narrative diversificate con uno sforzo umano minimo
AutoStory: Generating Diverse Storytelling Images with Minimal Human Effort
November 19, 2023
Autori: Wen Wang, Canyu Zhao, Hao Chen, Zhekai Chen, Kecheng Zheng, Chunhua Shen
cs.AI
Abstract
La visualizzazione di storie mira a generare una serie di immagini che corrispondano alla storia descritta nei testi, richiedendo che le immagini generate soddisfino criteri di alta qualità, allineamento con la descrizione testuale e coerenza nelle identità dei personaggi. Data la complessità della visualizzazione di storie, i metodi esistenti semplificano drasticamente il problema considerando solo pochi personaggi e scenari specifici, o richiedendo agli utenti di fornire condizioni di controllo per immagine, come schizzi. Tuttavia, queste semplificazioni rendono tali metodi inadatti per applicazioni reali. A tal fine, proponiamo un sistema automatizzato di visualizzazione di storie in grado di generare efficacemente serie di immagini diversificate, di alta qualità e coerenti, con interazioni umane minime. Nello specifico, sfruttiamo le capacità di comprensione e pianificazione dei modelli linguistici di grandi dimensioni per la pianificazione del layout, e poi utilizziamo modelli di testo-immagine su larga scala per generare immagini sofisticate della storia basate sul layout. Empiricamente, abbiamo riscontrato che condizioni di controllo sparse, come i bounding box, sono adatte per la pianificazione del layout, mentre condizioni di controllo dense, ad esempio schizzi e punti chiave, sono adatte per generare contenuti di immagini di alta qualità. Per ottenere il meglio da entrambi gli approcci, abbiamo ideato un modulo di generazione di condizioni dense per trasformare semplici layout di bounding box in condizioni di controllo come schizzi o punti chiave per la generazione finale delle immagini, il che non solo migliora la qualità delle immagini, ma consente anche interazioni utente facili e intuitive. Inoltre, proponiamo un metodo semplice ma efficace per generare immagini di personaggi coerenti da più punti di vista, eliminando la dipendenza dal lavoro umano per raccogliere o disegnare immagini di personaggi.
English
Story visualization aims to generate a series of images that match the story
described in texts, and it requires the generated images to satisfy high
quality, alignment with the text description, and consistency in character
identities. Given the complexity of story visualization, existing methods
drastically simplify the problem by considering only a few specific characters
and scenarios, or requiring the users to provide per-image control conditions
such as sketches. However, these simplifications render these methods
incompetent for real applications. To this end, we propose an automated story
visualization system that can effectively generate diverse, high-quality, and
consistent sets of story images, with minimal human interactions. Specifically,
we utilize the comprehension and planning capabilities of large language models
for layout planning, and then leverage large-scale text-to-image models to
generate sophisticated story images based on the layout. We empirically find
that sparse control conditions, such as bounding boxes, are suitable for layout
planning, while dense control conditions, e.g., sketches and keypoints, are
suitable for generating high-quality image content. To obtain the best of both
worlds, we devise a dense condition generation module to transform simple
bounding box layouts into sketch or keypoint control conditions for final image
generation, which not only improves the image quality but also allows easy and
intuitive user interactions. In addition, we propose a simple yet effective
method to generate multi-view consistent character images, eliminating the
reliance on human labor to collect or draw character images.