ChatPaper.aiChatPaper

MagicScroll: Generación de imágenes con proporciones atípicas para narrativa visual mediante desenfoque semántico multicapa

MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual Storytelling via Multi-Layered Semantic-Aware Denoising

December 18, 2023
Autores: Bingyuan Wang, Hengyu Meng, Zeyu Cai, Lanjiong Li, Yue Ma, Qifeng Chen, Zeyu Wang
cs.AI

Resumen

La narración visual a menudo utiliza imágenes con relaciones de aspecto atípicas, como pinturas en rollo, tiras cómicas y panoramas, para crear una narrativa expresiva y cautivadora. Si bien la IA generativa ha logrado un gran éxito y ha demostrado el potencial de transformar la industria creativa, sigue siendo un desafío generar contenido coherente y atractivo con un tamaño arbitrario y un estilo, concepto y diseño controlables, todos los cuales son esenciales para la narración visual. Para superar las limitaciones de métodos anteriores, como contenido repetitivo, inconsistencia de estilo y falta de controlabilidad, proponemos MagicScroll, un marco de generación de imágenes basado en difusión progresiva y multicapa con un novedoso proceso de eliminación de ruido semánticamente consciente. El modelo permite un control detallado sobre la imagen generada a nivel de objetos, escenas y fondos, utilizando condiciones de texto, imagen y diseño. También establecemos el primer punto de referencia para la generación de imágenes con relaciones de aspecto atípicas en la narración visual, incluyendo medios como pinturas, cómics y panoramas cinematográficos, con métricas personalizadas para una evaluación sistemática. A través de estudios comparativos y de ablación, MagicScroll muestra resultados prometedores en la alineación con el texto narrativo, la mejora de la coherencia visual y la capacidad de captar la atención del público. Planeamos liberar el código y el punto de referencia con la esperanza de fomentar una mejor colaboración entre investigadores de IA y profesionales creativos involucrados en la narración visual.
English
Visual storytelling often uses nontypical aspect-ratio images like scroll paintings, comic strips, and panoramas to create an expressive and compelling narrative. While generative AI has achieved great success and shown the potential to reshape the creative industry, it remains a challenge to generate coherent and engaging content with arbitrary size and controllable style, concept, and layout, all of which are essential for visual storytelling. To overcome the shortcomings of previous methods including repetitive content, style inconsistency, and lack of controllability, we propose MagicScroll, a multi-layered, progressive diffusion-based image generation framework with a novel semantic-aware denoising process. The model enables fine-grained control over the generated image on object, scene, and background levels with text, image, and layout conditions. We also establish the first benchmark for nontypical aspect-ratio image generation for visual storytelling including mediums like paintings, comics, and cinematic panoramas, with customized metrics for systematic evaluation. Through comparative and ablation studies, MagicScroll showcases promising results in aligning with the narrative text, improving visual coherence, and engaging the audience. We plan to release the code and benchmark in the hope of a better collaboration between AI researchers and creative practitioners involving visual storytelling.
PDF151December 15, 2024