OmniHuman-1: Переосмысление масштабирования моделей анимации человека с одним этапом условияOmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human
Animation Models
Энд-ту-энд анимация человека, такая как генерация разговорных человеческих аудио, претерпела значительные усовершенствования за последние несколько лет. Однако существующие методы все еще испытывают трудности с масштабированием как большие общие модели генерации видео, что ограничивает их потенциал в реальных приложениях. В данной статье мы предлагаем OmniHuman, основанный на трансформере Диффузии, фреймворк, который масштабирует данные путем внедрения условий, связанных с движением, на этапе обучения. Для этого мы предлагаем два принципа обучения для этих смешанных условий, а также соответствующую архитектуру модели и стратегию вывода. Эти конструкции позволяют OmniHuman полностью использовать генерацию движения на основе данных, в конечном итоге достигая высокореалистичной генерации видео с человеком. Более того, OmniHuman поддерживает различные портретные контенты (крупный план лица, портрет, полу-тело, полное тело), поддерживает как разговор, так и пение, обрабатывает взаимодействия человека с объектами и сложные позы тела, а также учитывает различные стили изображений. По сравнению с существующими энд-ту-энд методами, основанными на аудио, OmniHuman не только создает более реалистичные видео, но также предлагает большую гибкость ввода. Он также поддерживает несколько модальностей управления (аудио, видео и комбинированные сигналы управления). Видео-примеры предоставлены на странице проекта ttfamily (https://omnihuman-lab.github.io)