OmniHuman-1: Переосмысление масштабирования моделей анимации человека с одним этапом условия
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models
February 3, 2025
Авторы: Gaojie Lin, Jianwen Jiang, Jiaqi Yang, Zerong Zheng, Chao Liang
cs.AI
Аннотация
Энд-ту-энд анимация человека, такая как генерация разговорных человеческих аудио, претерпела значительные усовершенствования за последние несколько лет. Однако существующие методы все еще испытывают трудности с масштабированием как большие общие модели генерации видео, что ограничивает их потенциал в реальных приложениях. В данной статье мы предлагаем OmniHuman, основанный на трансформере Диффузии, фреймворк, который масштабирует данные путем внедрения условий, связанных с движением, на этапе обучения. Для этого мы предлагаем два принципа обучения для этих смешанных условий, а также соответствующую архитектуру модели и стратегию вывода. Эти конструкции позволяют OmniHuman полностью использовать генерацию движения на основе данных, в конечном итоге достигая высокореалистичной генерации видео с человеком. Более того, OmniHuman поддерживает различные портретные контенты (крупный план лица, портрет, полу-тело, полное тело), поддерживает как разговор, так и пение, обрабатывает взаимодействия человека с объектами и сложные позы тела, а также учитывает различные стили изображений. По сравнению с существующими энд-ту-энд методами, основанными на аудио, OmniHuman не только создает более реалистичные видео, но также предлагает большую гибкость ввода. Он также поддерживает несколько модальностей управления (аудио, видео и комбинированные сигналы управления). Видео-примеры предоставлены на странице проекта ttfamily (https://omnihuman-lab.github.io)
English
End-to-end human animation, such as audio-driven talking human generation,
has undergone notable advancements in the recent few years. However, existing
methods still struggle to scale up as large general video generation models,
limiting their potential in real applications. In this paper, we propose
OmniHuman, a Diffusion Transformer-based framework that scales up data by
mixing motion-related conditions into the training phase. To this end, we
introduce two training principles for these mixed conditions, along with the
corresponding model architecture and inference strategy. These designs enable
OmniHuman to fully leverage data-driven motion generation, ultimately achieving
highly realistic human video generation. More importantly, OmniHuman supports
various portrait contents (face close-up, portrait, half-body, full-body),
supports both talking and singing, handles human-object interactions and
challenging body poses, and accommodates different image styles. Compared to
existing end-to-end audio-driven methods, OmniHuman not only produces more
realistic videos, but also offers greater flexibility in inputs. It also
supports multiple driving modalities (audio-driven, video-driven and combined
driving signals). Video samples are provided on the ttfamily project page
(https://omnihuman-lab.github.io)Summary
AI-Generated Summary