Story2Board: 表現力豊かなストーリーボード生成のためのトレーニング不要なアプローチ
Story2Board: A Training-Free Approach for Expressive Storyboard Generation
August 13, 2025
著者: David Dinkevich, Matan Levy, Omri Avrahami, Dvir Samuel, Dani Lischinski
cs.AI
要旨
私たちは、自然言語からの表現力豊かなストーリーボード生成のためのトレーニング不要のフレームワーク「Story2Board」を提案します。既存の手法は被写体の同一性に焦点を当てるだけで、空間構成、背景の変化、物語のテンポといった視覚的ストーリーテリングの重要な側面を見落としています。この問題を解決するため、2つのコンポーネントからなる軽量な一貫性フレームワークを導入します。1つ目は「Latent Panel Anchoring」で、パネル間で共有されるキャラクターの参照を保持します。2つ目は「Reciprocal Attention Value Mixing」で、相互に強い注意を持つトークンペア間の視覚的特徴をソフトにブレンドします。これらのメカニズムを組み合わせることで、アーキテクチャの変更やファインチューニングなしに一貫性を向上させ、最先端の拡散モデルが視覚的に多様でありながら一貫性のあるストーリーボードを生成できるようにします。生成を構造化するために、オフ・ザ・シェルフの言語モデルを使用して自由形式の物語を具体的なパネルレベルのプロンプトに変換します。評価のために、一貫性に加えてレイアウトの多様性と背景に基づいたストーリーテリングを評価するために設計されたオープンドメインの物語スイート「Rich Storyboard Benchmark」を提案します。また、ストーリーボード全体の空間的およびポーズの変動を定量化する新しい「Scene Diversity」メトリックを導入します。定性的および定量的な結果、およびユーザー調査により、Story2Boardが既存のベースラインよりも動的で一貫性があり、物語的に魅力的なストーリーボードを生成することが示されています。
English
We present Story2Board, a training-free framework for expressive storyboard
generation from natural language. Existing methods narrowly focus on subject
identity, overlooking key aspects of visual storytelling such as spatial
composition, background evolution, and narrative pacing. To address this, we
introduce a lightweight consistency framework composed of two components:
Latent Panel Anchoring, which preserves a shared character reference across
panels, and Reciprocal Attention Value Mixing, which softly blends visual
features between token pairs with strong reciprocal attention. Together, these
mechanisms enhance coherence without architectural changes or fine-tuning,
enabling state-of-the-art diffusion models to generate visually diverse yet
consistent storyboards. To structure generation, we use an off-the-shelf
language model to convert free-form stories into grounded panel-level prompts.
To evaluate, we propose the Rich Storyboard Benchmark, a suite of open-domain
narratives designed to assess layout diversity and background-grounded
storytelling, in addition to consistency. We also introduce a new Scene
Diversity metric that quantifies spatial and pose variation across storyboards.
Our qualitative and quantitative results, as well as a user study, show that
Story2Board produces more dynamic, coherent, and narratively engaging
storyboards than existing baselines.