Story2Board: Бесплатное обучение для создания выразительных сторибордов
Story2Board: A Training-Free Approach for Expressive Storyboard Generation
August 13, 2025
Авторы: David Dinkevich, Matan Levy, Omri Avrahami, Dvir Samuel, Dani Lischinski
cs.AI
Аннотация
Мы представляем Story2Board — обучение-независимый фреймворк для создания выразительных сторибордов на основе естественного языка. Существующие методы узко фокусируются на идентичности объектов, упуская ключевые аспекты визуального повествования, такие как пространственная композиция, эволюция фона и темп повествования. Для решения этой проблемы мы вводим легковесный фреймворк согласованности, состоящий из двух компонентов: Latent Panel Anchoring, который сохраняет общую ссылку на персонажа между панелями, и Reciprocal Attention Value Mixing, который мягко смешивает визуальные признаки между парами токенов с сильной взаимной внимательностью. Вместе эти механизмы повышают согласованность без изменения архитектуры или тонкой настройки, позволяя современным диффузионным моделям генерировать визуально разнообразные, но согласованные сториборды. Для структурирования генерации мы используем готовую языковую модель для преобразования свободных историй в конкретные подсказки на уровне панелей. Для оценки мы предлагаем Rich Storyboard Benchmark — набор открытых нарративов, предназначенных для оценки разнообразия компоновки и повествования, основанного на фоне, в дополнение к согласованности. Мы также вводим новую метрику Scene Diversity, которая количественно оценивает пространственное и позовое разнообразие в сторибордах. Наши качественные и количественные результаты, а также пользовательское исследование показывают, что Story2Board создает более динамичные, согласованные и нарративно увлекательные сториборды, чем существующие базовые методы.
English
We present Story2Board, a training-free framework for expressive storyboard
generation from natural language. Existing methods narrowly focus on subject
identity, overlooking key aspects of visual storytelling such as spatial
composition, background evolution, and narrative pacing. To address this, we
introduce a lightweight consistency framework composed of two components:
Latent Panel Anchoring, which preserves a shared character reference across
panels, and Reciprocal Attention Value Mixing, which softly blends visual
features between token pairs with strong reciprocal attention. Together, these
mechanisms enhance coherence without architectural changes or fine-tuning,
enabling state-of-the-art diffusion models to generate visually diverse yet
consistent storyboards. To structure generation, we use an off-the-shelf
language model to convert free-form stories into grounded panel-level prompts.
To evaluate, we propose the Rich Storyboard Benchmark, a suite of open-domain
narratives designed to assess layout diversity and background-grounded
storytelling, in addition to consistency. We also introduce a new Scene
Diversity metric that quantifies spatial and pose variation across storyboards.
Our qualitative and quantitative results, as well as a user study, show that
Story2Board produces more dynamic, coherent, and narratively engaging
storyboards than existing baselines.