MoCha: На пути к синтезу говорящих персонажей кинематографического уровняMoCha: Towards Movie-Grade Talking Character Synthesis
Последние достижения в области генерации видео достигли впечатляющего реализма в передаче движения, однако они часто упускают из виду персонажей и их истории, что является ключевой задачей для автоматизированного создания фильмов и анимации. Мы представляем проект Talking Characters — более реалистичную задачу по генерации анимации говорящих персонажей непосредственно из речи и текста. В отличие от генерации "говорящих голов", Talking Characters направлен на создание полного портрета одного или нескольких персонажей, выходящего за пределы лицевой области. В данной статье мы предлагаем MoCha — первый в своём роде метод для генерации говорящих персонажей. Для обеспечения точной синхронизации видео и речи мы предлагаем механизм внимания на основе окон, который эффективно выравнивает токены речи и видео. Для решения проблемы нехватки крупномасштабных видеоданных с речевыми метками мы вводим стратегию совместного обучения, которая использует как видеоданные с речевыми, так и с текстовыми метками, значительно улучшая обобщение для различных действий персонажей. Мы также разработали структурированные шаблоны подсказок с тегами персонажей, что впервые позволяет создавать диалоги между несколькими персонажами с поочерёдным обменом репликами, обеспечивая контекстно-зависимые разговоры с кинематографической согласованностью. Многочисленные качественные и количественные оценки, включая исследования предпочтений пользователей и сравнения с эталонными методами, демонстрируют, что MoCha устанавливает новый стандарт для кинематографического повествования, созданного с помощью ИИ, достигая превосходного реализма, выразительности, управляемости и обобщения.