MagicScroll: Generatie van afbeeldingen met ongebruikelijke beeldverhoudingen voor visuele verhalen via meerlaagse semantisch bewuste ruisverwijdering

Samenvatting

Visueel verhalen vertellen maakt vaak gebruik van afbeeldingen met ongebruikelijke beeldverhoudingen, zoals rolschilderingen, stripverhalen en panorama's, om een expressief en boeiend narratief te creëren. Hoewel generatieve AI grote successen heeft behaald en het potentieel heeft getoond om de creatieve industrie te hervormen, blijft het een uitdaging om samenhangende en aansprekende inhoud te genereren met een willekeurige grootte en controleerbare stijl, concept en lay-out, die allemaal essentieel zijn voor visueel verhalen vertellen. Om de tekortkomingen van eerdere methoden, waaronder repetitieve inhoud, stijlinconsistentie en een gebrek aan controleerbaarheid, te overwinnen, stellen we MagicScroll voor, een meerlagig, progressief op diffusie gebaseerd framework voor beeldgeneratie met een nieuw semantisch bewust denoiseringsproces. Het model maakt fijnmazige controle mogelijk over het gegenereerde beeld op object-, scène- en achtergrondniveau met tekst-, beeld- en lay-outcondities. We stellen ook de eerste benchmark op voor het genereren van afbeeldingen met ongebruikelijke beeldverhoudingen voor visueel verhalen vertellen, inclusief media zoals schilderijen, strips en cinematische panorama's, met aangepaste metrieken voor systematische evaluatie. Door vergelijkende en ablatiestudies toont MagicScroll veelbelovende resultaten in het afstemmen op de narratieve tekst, het verbeteren van visuele samenhang en het betrekken van het publiek. We zijn van plan de code en benchmark vrij te geven in de hoop op een betere samenwerking tussen AI-onderzoekers en creatieve professionals op het gebied van visueel verhalen vertellen.

English

Visual storytelling often uses nontypical aspect-ratio images like scroll paintings, comic strips, and panoramas to create an expressive and compelling narrative. While generative AI has achieved great success and shown the potential to reshape the creative industry, it remains a challenge to generate coherent and engaging content with arbitrary size and controllable style, concept, and layout, all of which are essential for visual storytelling. To overcome the shortcomings of previous methods including repetitive content, style inconsistency, and lack of controllability, we propose MagicScroll, a multi-layered, progressive diffusion-based image generation framework with a novel semantic-aware denoising process. The model enables fine-grained control over the generated image on object, scene, and background levels with text, image, and layout conditions. We also establish the first benchmark for nontypical aspect-ratio image generation for visual storytelling including mediums like paintings, comics, and cinematic panoramas, with customized metrics for systematic evaluation. Through comparative and ablation studies, MagicScroll showcases promising results in aligning with the narrative text, improving visual coherence, and engaging the audience. We plan to release the code and benchmark in the hope of a better collaboration between AI researchers and creative practitioners involving visual storytelling.

MagicScroll: Generatie van afbeeldingen met ongebruikelijke beeldverhoudingen voor visuele verhalen via meerlaagse semantisch bewuste ruisverwijdering

MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual Storytelling via Multi-Layered Semantic-Aware Denoising

Samenvatting

Support