Story2Board: Ein trainingsfreier Ansatz zur expressiven Storyboard-Generierung
Story2Board: A Training-Free Approach for Expressive Storyboard Generation
August 13, 2025
papers.authors: David Dinkevich, Matan Levy, Omri Avrahami, Dvir Samuel, Dani Lischinski
cs.AI
papers.abstract
Wir präsentieren Story2Board, ein trainingsfreies Framework für die expressive Erstellung von Storyboards aus natürlicher Sprache. Bestehende Methoden konzentrieren sich eng auf die Identität des Subjekts und übersehen dabei Schlüsselaspekte des visuellen Geschichtenerzählens wie räumliche Komposition, Hintergrundentwicklung und erzählerische Geschwindigkeit. Um dies zu adressieren, führen wir ein leichtgewichtiges Konsistenzframework ein, das aus zwei Komponenten besteht: Latent Panel Anchoring, das eine gemeinsame Charakterreferenz über Panels hinweg bewahrt, und Reciprocal Attention Value Mixing, das visuelle Merkmale zwischen Token-Paaren mit starker reziproker Aufmerksamkeit sanft vermischt. Zusammen verbessern diese Mechanismen die Kohärenz ohne architektonische Änderungen oder Feinabstimmung, wodurch State-of-the-Art-Diffusionsmodelle in der Lage sind, visuell vielfältige und dennoch konsistente Storyboards zu generieren. Um die Generierung zu strukturieren, verwenden wir ein Standard-Sprachmodell, um freiformulierte Geschichten in fundierte Panel-Level-Prompts umzuwandeln. Zur Bewertung schlagen wir den Rich Storyboard Benchmark vor, eine Sammlung von Open-Domain-Narrativen, die darauf abzielen, Layoutvielfalt und hintergrundbasiertes Geschichtenerzählen zusätzlich zur Konsistenz zu bewerten. Wir führen auch eine neue Scene Diversity-Metrik ein, die räumliche und Pose-Variationen über Storyboards hinweg quantifiziert. Unsere qualitativen und quantitativen Ergebnisse sowie eine Nutzerstudie zeigen, dass Story2Board dynamischere, kohärentere und erzählerisch ansprechendere Storyboards erzeugt als bestehende Baselines.
English
We present Story2Board, a training-free framework for expressive storyboard
generation from natural language. Existing methods narrowly focus on subject
identity, overlooking key aspects of visual storytelling such as spatial
composition, background evolution, and narrative pacing. To address this, we
introduce a lightweight consistency framework composed of two components:
Latent Panel Anchoring, which preserves a shared character reference across
panels, and Reciprocal Attention Value Mixing, which softly blends visual
features between token pairs with strong reciprocal attention. Together, these
mechanisms enhance coherence without architectural changes or fine-tuning,
enabling state-of-the-art diffusion models to generate visually diverse yet
consistent storyboards. To structure generation, we use an off-the-shelf
language model to convert free-form stories into grounded panel-level prompts.
To evaluate, we propose the Rich Storyboard Benchmark, a suite of open-domain
narratives designed to assess layout diversity and background-grounded
storytelling, in addition to consistency. We also introduce a new Scene
Diversity metric that quantifies spatial and pose variation across storyboards.
Our qualitative and quantitative results, as well as a user study, show that
Story2Board produces more dynamic, coherent, and narratively engaging
storyboards than existing baselines.