Story2Board: Ein trainingsfreier Ansatz zur expressiven Storyboard-Generierung

papers.abstract

Wir präsentieren Story2Board, ein trainingsfreies Framework für die expressive Erstellung von Storyboards aus natürlicher Sprache. Bestehende Methoden konzentrieren sich eng auf die Identität des Subjekts und übersehen dabei Schlüsselaspekte des visuellen Geschichtenerzählens wie räumliche Komposition, Hintergrundentwicklung und erzählerische Geschwindigkeit. Um dies zu adressieren, führen wir ein leichtgewichtiges Konsistenzframework ein, das aus zwei Komponenten besteht: Latent Panel Anchoring, das eine gemeinsame Charakterreferenz über Panels hinweg bewahrt, und Reciprocal Attention Value Mixing, das visuelle Merkmale zwischen Token-Paaren mit starker reziproker Aufmerksamkeit sanft vermischt. Zusammen verbessern diese Mechanismen die Kohärenz ohne architektonische Änderungen oder Feinabstimmung, wodurch State-of-the-Art-Diffusionsmodelle in der Lage sind, visuell vielfältige und dennoch konsistente Storyboards zu generieren. Um die Generierung zu strukturieren, verwenden wir ein Standard-Sprachmodell, um freiformulierte Geschichten in fundierte Panel-Level-Prompts umzuwandeln. Zur Bewertung schlagen wir den Rich Storyboard Benchmark vor, eine Sammlung von Open-Domain-Narrativen, die darauf abzielen, Layoutvielfalt und hintergrundbasiertes Geschichtenerzählen zusätzlich zur Konsistenz zu bewerten. Wir führen auch eine neue Scene Diversity-Metrik ein, die räumliche und Pose-Variationen über Storyboards hinweg quantifiziert. Unsere qualitativen und quantitativen Ergebnisse sowie eine Nutzerstudie zeigen, dass Story2Board dynamischere, kohärentere und erzählerisch ansprechendere Storyboards erzeugt als bestehende Baselines.

English

We present Story2Board, a training-free framework for expressive storyboard generation from natural language. Existing methods narrowly focus on subject identity, overlooking key aspects of visual storytelling such as spatial composition, background evolution, and narrative pacing. To address this, we introduce a lightweight consistency framework composed of two components: Latent Panel Anchoring, which preserves a shared character reference across panels, and Reciprocal Attention Value Mixing, which softly blends visual features between token pairs with strong reciprocal attention. Together, these mechanisms enhance coherence without architectural changes or fine-tuning, enabling state-of-the-art diffusion models to generate visually diverse yet consistent storyboards. To structure generation, we use an off-the-shelf language model to convert free-form stories into grounded panel-level prompts. To evaluate, we propose the Rich Storyboard Benchmark, a suite of open-domain narratives designed to assess layout diversity and background-grounded storytelling, in addition to consistency. We also introduce a new Scene Diversity metric that quantifies spatial and pose variation across storyboards. Our qualitative and quantitative results, as well as a user study, show that Story2Board produces more dynamic, coherent, and narratively engaging storyboards than existing baselines.

Story2Board: Ein trainingsfreier Ansatz zur expressiven Storyboard-Generierung

Story2Board: A Training-Free Approach for Expressive Storyboard Generation

papers.abstract

Support