Story2Board: Un Enfoque Libre de Entrenamiento para la Generación Expresiva de Storyboards
Story2Board: A Training-Free Approach for Expressive Storyboard Generation
August 13, 2025
Autores: David Dinkevich, Matan Levy, Omri Avrahami, Dvir Samuel, Dani Lischinski
cs.AI
Resumen
Presentamos Story2Board, un marco de trabajo sin entrenamiento para la generación expresiva de storyboards a partir de lenguaje natural. Los métodos existentes se centran de manera limitada en la identidad del sujeto, pasando por alto aspectos clave de la narrativa visual como la composición espacial, la evolución del fondo y el ritmo narrativo. Para abordar esto, introducimos un marco de consistencia ligero compuesto por dos componentes: Anclaje de Paneles Latentes, que preserva una referencia compartida de personajes a través de los paneles, y Mezcla de Valores de Atención Recíproca, que combina suavemente características visuales entre pares de tokens con una fuerte atención recíproca. Juntos, estos mecanismos mejoran la coherencia sin cambios arquitectónicos o ajustes finos, permitiendo que los modelos de difusión de última generación generen storyboards visualmente diversos pero consistentes. Para estructurar la generación, utilizamos un modelo de lenguaje preexistente para convertir historias de formato libre en indicaciones fundamentadas a nivel de panel. Para la evaluación, proponemos el Benchmark de Storyboards Enriquecidos, un conjunto de narrativas de dominio abierto diseñadas para evaluar la diversidad de diseño y la narrativa basada en el fondo, además de la consistencia. También introducimos una nueva métrica de Diversidad de Escena que cuantifica la variación espacial y de pose en los storyboards. Nuestros resultados cualitativos y cuantitativos, así como un estudio de usuarios, muestran que Story2Board produce storyboards más dinámicos, coherentes y narrativamente atractivos que las líneas base existentes.
English
We present Story2Board, a training-free framework for expressive storyboard
generation from natural language. Existing methods narrowly focus on subject
identity, overlooking key aspects of visual storytelling such as spatial
composition, background evolution, and narrative pacing. To address this, we
introduce a lightweight consistency framework composed of two components:
Latent Panel Anchoring, which preserves a shared character reference across
panels, and Reciprocal Attention Value Mixing, which softly blends visual
features between token pairs with strong reciprocal attention. Together, these
mechanisms enhance coherence without architectural changes or fine-tuning,
enabling state-of-the-art diffusion models to generate visually diverse yet
consistent storyboards. To structure generation, we use an off-the-shelf
language model to convert free-form stories into grounded panel-level prompts.
To evaluate, we propose the Rich Storyboard Benchmark, a suite of open-domain
narratives designed to assess layout diversity and background-grounded
storytelling, in addition to consistency. We also introduce a new Scene
Diversity metric that quantifies spatial and pose variation across storyboards.
Our qualitative and quantitative results, as well as a user study, show that
Story2Board produces more dynamic, coherent, and narratively engaging
storyboards than existing baselines.