Story2Board: 표현력 있는 스토리보드 생성을 위한 학습이 필요 없는 접근법
Story2Board: A Training-Free Approach for Expressive Storyboard Generation
August 13, 2025
저자: David Dinkevich, Matan Levy, Omri Avrahami, Dvir Samuel, Dani Lischinski
cs.AI
초록
우리는 자연어로부터 표현력 있는 스토리보드를 생성하기 위한 학습이 필요 없는 프레임워크인 Story2Board를 소개한다. 기존 방법들은 주체의 정체성에만 초점을 맞추어 공간 구성, 배경 변화, 서사적 속도 등 시각적 스토리텔링의 핵심 요소를 간과해 왔다. 이를 해결하기 위해, 우리는 두 가지 구성 요소로 이루어진 경량화된 일관성 프레임워크를 도입했다: 첫째, 패널 간 공유 캐릭터 참조를 유지하는 Latent Panel Anchoring과, 둘째, 강한 상호 주의를 가진 토큰 쌍 간의 시각적 특징을 부드럽게 혼합하는 Reciprocal Attention Value Mixing이다. 이 두 메커니즘은 아키텍처 변경이나 미세 조정 없이도 일관성을 강화하여, 최신 확산 모델이 시각적으로 다양하면서도 일관된 스토리보드를 생성할 수 있게 한다. 생성 과정을 구조화하기 위해, 우리는 자유 형식의 이야기를 패널 수준의 구체적인 프롬프트로 변환하는 데 기성 언어 모델을 사용한다. 평가를 위해, 우리는 일관성뿐만 아니라 레이아웃 다양성과 배경 기반 스토리텔링을 평가하기 위해 설계된 오픈 도메인 서사 모음인 Rich Storyboard Benchmark를 제안한다. 또한, 스토리보드 간 공간적 및 포즈 변화를 정량화하는 새로운 Scene Diversity 메트릭을 도입했다. 우리의 정성적 및 정량적 결과, 그리고 사용자 연구는 Story2Board가 기존 베이스라인보다 더 동적이고 일관성 있으며 서사적으로 매력적인 스토리보드를 생성한다는 것을 보여준다.
English
We present Story2Board, a training-free framework for expressive storyboard
generation from natural language. Existing methods narrowly focus on subject
identity, overlooking key aspects of visual storytelling such as spatial
composition, background evolution, and narrative pacing. To address this, we
introduce a lightweight consistency framework composed of two components:
Latent Panel Anchoring, which preserves a shared character reference across
panels, and Reciprocal Attention Value Mixing, which softly blends visual
features between token pairs with strong reciprocal attention. Together, these
mechanisms enhance coherence without architectural changes or fine-tuning,
enabling state-of-the-art diffusion models to generate visually diverse yet
consistent storyboards. To structure generation, we use an off-the-shelf
language model to convert free-form stories into grounded panel-level prompts.
To evaluate, we propose the Rich Storyboard Benchmark, a suite of open-domain
narratives designed to assess layout diversity and background-grounded
storytelling, in addition to consistency. We also introduce a new Scene
Diversity metric that quantifies spatial and pose variation across storyboards.
Our qualitative and quantitative results, as well as a user study, show that
Story2Board produces more dynamic, coherent, and narratively engaging
storyboards than existing baselines.