Story2Board: Uma Abordagem Livre de Treinamento para Geração Expressiva de Storyboards

Resumo

Apresentamos o Story2Board, um framework sem necessidade de treinamento para a geração expressiva de storyboards a partir de linguagem natural. Os métodos existentes focam de forma restrita na identidade do sujeito, negligenciando aspectos-chave da narrativa visual, como composição espacial, evolução do cenário e ritmo narrativo. Para abordar isso, introduzimos um framework leve de consistência composto por dois componentes: Ancoragem de Painel Latente, que preserva uma referência compartilhada de personagem entre os painéis, e Mistura Recíproca de Valores de Atenção, que combina suavemente características visuais entre pares de tokens com forte atenção recíproca. Juntos, esses mecanismos aprimoram a coerência sem alterações arquitetônicas ou ajustes finos, permitindo que modelos de difusão de última geração gerem storyboards visualmente diversos, porém consistentes. Para estruturar a geração, utilizamos um modelo de linguagem pronto para converter histórias de forma livre em prompts fundamentados em nível de painel. Para avaliação, propomos o Rich Storyboard Benchmark, um conjunto de narrativas de domínio aberto projetadas para avaliar diversidade de layout e narrativa fundamentada no cenário, além da consistência. Também introduzimos uma nova métrica de Diversidade de Cena, que quantifica a variação espacial e de pose entre os storyboards. Nossos resultados qualitativos e quantitativos, bem como um estudo com usuários, mostram que o Story2Board produz storyboards mais dinâmicos, coerentes e narrativamente envolventes do que as abordagens existentes.

English

We present Story2Board, a training-free framework for expressive storyboard generation from natural language. Existing methods narrowly focus on subject identity, overlooking key aspects of visual storytelling such as spatial composition, background evolution, and narrative pacing. To address this, we introduce a lightweight consistency framework composed of two components: Latent Panel Anchoring, which preserves a shared character reference across panels, and Reciprocal Attention Value Mixing, which softly blends visual features between token pairs with strong reciprocal attention. Together, these mechanisms enhance coherence without architectural changes or fine-tuning, enabling state-of-the-art diffusion models to generate visually diverse yet consistent storyboards. To structure generation, we use an off-the-shelf language model to convert free-form stories into grounded panel-level prompts. To evaluate, we propose the Rich Storyboard Benchmark, a suite of open-domain narratives designed to assess layout diversity and background-grounded storytelling, in addition to consistency. We also introduce a new Scene Diversity metric that quantifies spatial and pose variation across storyboards. Our qualitative and quantitative results, as well as a user study, show that Story2Board produces more dynamic, coherent, and narratively engaging storyboards than existing baselines.

Story2Board: Uma Abordagem Livre de Treinamento para Geração Expressiva de Storyboards

Story2Board: A Training-Free Approach for Expressive Storyboard Generation

Resumo

Support