MoCha: На пути к синтезу говорящих персонажей кинематографического уровня
MoCha: Towards Movie-Grade Talking Character Synthesis
March 30, 2025
Авторы: Cong Wei, Bo Sun, Haoyu Ma, Ji Hou, Felix Juefei-Xu, Zecheng He, Xiaoliang Dai, Luxin Zhang, Kunpeng Li, Tingbo Hou, Animesh Sinha, Peter Vajda, Wenhu Chen
cs.AI
Аннотация
Последние достижения в области генерации видео достигли впечатляющего реализма в передаче движения, однако они часто упускают из виду персонажей и их истории, что является ключевой задачей для автоматизированного создания фильмов и анимации. Мы представляем проект Talking Characters — более реалистичную задачу по генерации анимации говорящих персонажей непосредственно из речи и текста. В отличие от генерации "говорящих голов", Talking Characters направлен на создание полного портрета одного или нескольких персонажей, выходящего за пределы лицевой области. В данной статье мы предлагаем MoCha — первый в своём роде метод для генерации говорящих персонажей. Для обеспечения точной синхронизации видео и речи мы предлагаем механизм внимания на основе окон, который эффективно выравнивает токены речи и видео. Для решения проблемы нехватки крупномасштабных видеоданных с речевыми метками мы вводим стратегию совместного обучения, которая использует как видеоданные с речевыми, так и с текстовыми метками, значительно улучшая обобщение для различных действий персонажей. Мы также разработали структурированные шаблоны подсказок с тегами персонажей, что впервые позволяет создавать диалоги между несколькими персонажами с поочерёдным обменом репликами, обеспечивая контекстно-зависимые разговоры с кинематографической согласованностью. Многочисленные качественные и количественные оценки, включая исследования предпочтений пользователей и сравнения с эталонными методами, демонстрируют, что MoCha устанавливает новый стандарт для кинематографического повествования, созданного с помощью ИИ, достигая превосходного реализма, выразительности, управляемости и обобщения.
English
Recent advancements in video generation have achieved impressive motion
realism, yet they often overlook character-driven storytelling, a crucial task
for automated film, animation generation. We introduce Talking Characters, a
more realistic task to generate talking character animations directly from
speech and text. Unlike talking head, Talking Characters aims at generating the
full portrait of one or more characters beyond the facial region. In this
paper, we propose MoCha, the first of its kind to generate talking characters.
To ensure precise synchronization between video and speech, we propose a
speech-video window attention mechanism that effectively aligns speech and
video tokens. To address the scarcity of large-scale speech-labeled video
datasets, we introduce a joint training strategy that leverages both
speech-labeled and text-labeled video data, significantly improving
generalization across diverse character actions. We also design structured
prompt templates with character tags, enabling, for the first time,
multi-character conversation with turn-based dialogue-allowing AI-generated
characters to engage in context-aware conversations with cinematic coherence.
Extensive qualitative and quantitative evaluations, including human preference
studies and benchmark comparisons, demonstrate that MoCha sets a new standard
for AI-generated cinematic storytelling, achieving superior realism,
expressiveness, controllability and generalization.Summary
AI-Generated Summary