ChatPaper.aiChatPaper

AutoStory : Génération d'images narratives diversifiées avec un effort humain minimal

AutoStory: Generating Diverse Storytelling Images with Minimal Human Effort

November 19, 2023
Auteurs: Wen Wang, Canyu Zhao, Hao Chen, Zhekai Chen, Kecheng Zheng, Chunhua Shen
cs.AI

Résumé

La visualisation de récits vise à générer une série d'images correspondant à l'histoire décrite dans des textes, tout en exigeant que les images générées soient de haute qualité, alignées avec la description textuelle et cohérentes dans les identités des personnages. Compte tenu de la complexité de la visualisation de récits, les méthodes existantes simplifient considérablement le problème en ne considérant que quelques personnages et scénarios spécifiques, ou en exigeant que les utilisateurs fournissent des conditions de contrôle par image, telles que des esquisses. Cependant, ces simplifications rendent ces méthodes inadaptées aux applications réelles. Pour pallier cela, nous proposons un système automatisé de visualisation de récits capable de générer efficacement des ensembles d'images de récits diversifiés, de haute qualité et cohérents, avec un minimum d'interactions humaines. Plus précisément, nous utilisons les capacités de compréhension et de planification des grands modèles de langage pour la planification des mises en page, puis nous exploitons des modèles de génération d'images à grande échelle pour produire des images de récits sophistiquées basées sur cette mise en page. Nous constatons empiriquement que des conditions de contrôle éparses, telles que des boîtes englobantes, sont adaptées à la planification des mises en page, tandis que des conditions de contrôle denses, comme des esquisses et des points clés, sont appropriées pour générer un contenu d'image de haute qualité. Pour tirer le meilleur des deux approches, nous concevons un module de génération de conditions denses pour transformer des mises en page simples en conditions de contrôle sous forme d'esquisses ou de points clés pour la génération finale d'images, ce qui améliore non seulement la qualité des images, mais permet également des interactions utilisateur faciles et intuitives. En outre, nous proposons une méthode simple mais efficace pour générer des images de personnages cohérentes sous plusieurs angles, éliminant ainsi la dépendance au travail humain pour collecter ou dessiner des images de personnages.
English
Story visualization aims to generate a series of images that match the story described in texts, and it requires the generated images to satisfy high quality, alignment with the text description, and consistency in character identities. Given the complexity of story visualization, existing methods drastically simplify the problem by considering only a few specific characters and scenarios, or requiring the users to provide per-image control conditions such as sketches. However, these simplifications render these methods incompetent for real applications. To this end, we propose an automated story visualization system that can effectively generate diverse, high-quality, and consistent sets of story images, with minimal human interactions. Specifically, we utilize the comprehension and planning capabilities of large language models for layout planning, and then leverage large-scale text-to-image models to generate sophisticated story images based on the layout. We empirically find that sparse control conditions, such as bounding boxes, are suitable for layout planning, while dense control conditions, e.g., sketches and keypoints, are suitable for generating high-quality image content. To obtain the best of both worlds, we devise a dense condition generation module to transform simple bounding box layouts into sketch or keypoint control conditions for final image generation, which not only improves the image quality but also allows easy and intuitive user interactions. In addition, we propose a simple yet effective method to generate multi-view consistent character images, eliminating the reliance on human labor to collect or draw character images.
PDF173December 15, 2024