ChatPaper.aiChatPaper

Story2Board : Une approche sans apprentissage pour la génération expressive de storyboards

Story2Board: A Training-Free Approach for Expressive Storyboard Generation

August 13, 2025
papers.authors: David Dinkevich, Matan Levy, Omri Avrahami, Dvir Samuel, Dani Lischinski
cs.AI

papers.abstract

Nous présentons Story2Board, un framework sans entraînement pour la génération expressive de storyboards à partir de langage naturel. Les méthodes existantes se concentrent étroitement sur l'identité du sujet, négligeant des aspects clés de la narration visuelle tels que la composition spatiale, l'évolution de l'arrière-plan et le rythme narratif. Pour remédier à cela, nous introduisons un framework de cohérence léger composé de deux éléments : l'Ancrage de Panneaux Latents, qui préserve une référence de personnage partagée entre les panneaux, et le Mélange Réciproque de Valeurs d'Attention, qui fusionne doucement les caractéristiques visuelles entre des paires de tokens avec une forte attention réciproque. Ensemble, ces mécanismes améliorent la cohérence sans modifications architecturales ni fine-tuning, permettant aux modèles de diffusion de pointe de générer des storyboards visuellement diversifiés tout en restant cohérents. Pour structurer la génération, nous utilisons un modèle de langage prêt à l'emploi pour convertir des histoires libres en prompts ancrés au niveau des panneaux. Pour l'évaluation, nous proposons le Rich Storyboard Benchmark, une suite de récits en domaine ouvert conçus pour évaluer la diversité de mise en page et la narration ancrée dans l'arrière-plan, en plus de la cohérence. Nous introduisons également une nouvelle métrique de Diversité de Scène qui quantifie les variations spatiales et de pose dans les storyboards. Nos résultats qualitatifs et quantitatifs, ainsi qu'une étude utilisateur, montrent que Story2Board produit des storyboards plus dynamiques, cohérents et engageants sur le plan narratif que les baselines existantes.
English
We present Story2Board, a training-free framework for expressive storyboard generation from natural language. Existing methods narrowly focus on subject identity, overlooking key aspects of visual storytelling such as spatial composition, background evolution, and narrative pacing. To address this, we introduce a lightweight consistency framework composed of two components: Latent Panel Anchoring, which preserves a shared character reference across panels, and Reciprocal Attention Value Mixing, which softly blends visual features between token pairs with strong reciprocal attention. Together, these mechanisms enhance coherence without architectural changes or fine-tuning, enabling state-of-the-art diffusion models to generate visually diverse yet consistent storyboards. To structure generation, we use an off-the-shelf language model to convert free-form stories into grounded panel-level prompts. To evaluate, we propose the Rich Storyboard Benchmark, a suite of open-domain narratives designed to assess layout diversity and background-grounded storytelling, in addition to consistency. We also introduce a new Scene Diversity metric that quantifies spatial and pose variation across storyboards. Our qualitative and quantitative results, as well as a user study, show that Story2Board produces more dynamic, coherent, and narratively engaging storyboards than existing baselines.
PDF422August 14, 2025