Story2Board: Un Approccio Senza Addestramento per la Generazione Espressiva di Storyboard

Abstract

Presentiamo Story2Board, un framework senza necessità di addestramento per la generazione espressiva di storyboard a partire da linguaggio naturale. I metodi esistenti si concentrano in modo limitato sull'identità del soggetto, trascurando aspetti chiave della narrazione visiva come la composizione spaziale, l'evoluzione dello sfondo e il ritmo narrativo. Per affrontare questo problema, introduciamo un framework di consistenza leggero composto da due componenti: Latent Panel Anchoring, che preserva un riferimento condiviso del personaggio tra i pannelli, e Reciprocal Attention Value Mixing, che miscela delicatamente le caratteristiche visive tra coppie di token con forte attenzione reciproca. Insieme, questi meccanismi migliorano la coerenza senza modifiche architetturali o fine-tuning, consentendo ai modelli di diffusione all'avanguardia di generare storyboard visivamente diversificati ma coerenti. Per strutturare la generazione, utilizziamo un modello linguistico preesistente per convertire storie in forma libera in prompt a livello di pannello. Per la valutazione, proponiamo il Rich Storyboard Benchmark, una suite di narrazioni a dominio aperto progettata per valutare la diversità del layout e la narrazione basata sullo sfondo, oltre alla coerenza. Introduciamo anche una nuova metrica di Scene Diversity che quantifica la variazione spaziale e di posa negli storyboard. I nostri risultati qualitativi e quantitativi, insieme a uno studio con utenti, dimostrano che Story2Board produce storyboard più dinamici, coerenti e narrativamente coinvolgenti rispetto alle baseline esistenti.

English

We present Story2Board, a training-free framework for expressive storyboard generation from natural language. Existing methods narrowly focus on subject identity, overlooking key aspects of visual storytelling such as spatial composition, background evolution, and narrative pacing. To address this, we introduce a lightweight consistency framework composed of two components: Latent Panel Anchoring, which preserves a shared character reference across panels, and Reciprocal Attention Value Mixing, which softly blends visual features between token pairs with strong reciprocal attention. Together, these mechanisms enhance coherence without architectural changes or fine-tuning, enabling state-of-the-art diffusion models to generate visually diverse yet consistent storyboards. To structure generation, we use an off-the-shelf language model to convert free-form stories into grounded panel-level prompts. To evaluate, we propose the Rich Storyboard Benchmark, a suite of open-domain narratives designed to assess layout diversity and background-grounded storytelling, in addition to consistency. We also introduce a new Scene Diversity metric that quantifies spatial and pose variation across storyboards. Our qualitative and quantitative results, as well as a user study, show that Story2Board produces more dynamic, coherent, and narratively engaging storyboards than existing baselines.

Story2Board: Un Approccio Senza Addestramento per la Generazione Espressiva di Storyboard

Story2Board: A Training-Free Approach for Expressive Storyboard Generation

Abstract

Support