ChatPaper.aiChatPaper

Story2Board: Een Trainingsvrije Benadering voor Expressieve Storyboardgeneratie

Story2Board: A Training-Free Approach for Expressive Storyboard Generation

August 13, 2025
Auteurs: David Dinkevich, Matan Levy, Omri Avrahami, Dvir Samuel, Dani Lischinski
cs.AI

Samenvatting

We presenteren Story2Board, een trainingsvrij raamwerk voor het genereren van expressieve storyboards vanuit natuurlijke taal. Bestaande methodes richten zich nauw op subjectidentiteit, waarbij belangrijke aspecten van visueel vertellen zoals ruimtelijke compositie, achtergrondontwikkeling en narratieve timing over het hoofd worden gezien. Om dit aan te pakken, introduceren we een lichtgewicht consistentieraamwerk dat bestaat uit twee componenten: Latent Panel Anchoring, dat een gedeeld personagereferentie over panelen behoudt, en Reciprocal Attention Value Mixing, dat visuele kenmerken zachtjes mengt tussen tokenparen met sterke wederzijdse aandacht. Samen verbeteren deze mechanismen de samenhang zonder architectuurwijzigingen of fine-tuning, waardoor state-of-the-art diffusiemodellen visueel diverse maar consistente storyboards kunnen genereren. Om de generatie te structureren, gebruiken we een kant-en-klaar taalmodel om vrije verhalen om te zetten in gegronde paneelprompts. Voor evaluatie stellen we de Rich Storyboard Benchmark voor, een suite van open-domein verhalen ontworpen om lay-outdiversiteit en achtergrond-gegrond vertellen te beoordelen, naast consistentie. We introduceren ook een nieuwe Scene Diversity-metric die ruimtelijke en posevariatie over storyboards kwantificeert. Onze kwalitatieve en kwantitatieve resultaten, evenals een gebruikersstudie, tonen aan dat Story2Board dynamischer, samenhangender en narratief boeiender storyboards produceert dan bestaande baselines.
English
We present Story2Board, a training-free framework for expressive storyboard generation from natural language. Existing methods narrowly focus on subject identity, overlooking key aspects of visual storytelling such as spatial composition, background evolution, and narrative pacing. To address this, we introduce a lightweight consistency framework composed of two components: Latent Panel Anchoring, which preserves a shared character reference across panels, and Reciprocal Attention Value Mixing, which softly blends visual features between token pairs with strong reciprocal attention. Together, these mechanisms enhance coherence without architectural changes or fine-tuning, enabling state-of-the-art diffusion models to generate visually diverse yet consistent storyboards. To structure generation, we use an off-the-shelf language model to convert free-form stories into grounded panel-level prompts. To evaluate, we propose the Rich Storyboard Benchmark, a suite of open-domain narratives designed to assess layout diversity and background-grounded storytelling, in addition to consistency. We also introduce a new Scene Diversity metric that quantifies spatial and pose variation across storyboards. Our qualitative and quantitative results, as well as a user study, show that Story2Board produces more dynamic, coherent, and narratively engaging storyboards than existing baselines.
PDF683August 14, 2025