OmniHuman-1: Repensando la Escalabilidad de Modelos de Animación Humana Condicionados de una Etapa
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models
February 3, 2025
Autores: Gaojie Lin, Jianwen Jiang, Jiaqi Yang, Zerong Zheng, Chao Liang
cs.AI
Resumen
La animación humana de extremo a extremo, como la generación humana hablante impulsada por audio, ha experimentado avances notables en los últimos años. Sin embargo, los métodos existentes aún luchan para escalar como los modelos generales de video a gran escala, limitando su potencial en aplicaciones reales. En este documento, proponemos OmniHuman, un marco basado en Transformadores de Difusión que escala los datos mezclando condiciones relacionadas con el movimiento en la fase de entrenamiento. Con este fin, presentamos dos principios de entrenamiento para estas condiciones mixtas, junto con la arquitectura del modelo correspondiente y la estrategia de inferencia. Estos diseños permiten que OmniHuman aproveche completamente la generación de movimiento basada en datos, logrando en última instancia una generación de video humano altamente realista. Más importante aún, OmniHuman admite varios contenidos de retratos (primer plano del rostro, retrato, medio cuerpo, cuerpo completo), admite tanto el habla como el canto, maneja interacciones humano-objeto y posturas corporales desafiantes, y se adapta a diferentes estilos de imagen. En comparación con los métodos existentes impulsados por audio de extremo a extremo, OmniHuman no solo produce videos más realistas, sino que también ofrece una mayor flexibilidad en las entradas. También admite múltiples modalidades de control (impulsado por audio, impulsado por video y señales de control combinadas). Se proporcionan ejemplos de video en la página del proyecto ttfamily (https://omnihuman-lab.github.io)
English
End-to-end human animation, such as audio-driven talking human generation,
has undergone notable advancements in the recent few years. However, existing
methods still struggle to scale up as large general video generation models,
limiting their potential in real applications. In this paper, we propose
OmniHuman, a Diffusion Transformer-based framework that scales up data by
mixing motion-related conditions into the training phase. To this end, we
introduce two training principles for these mixed conditions, along with the
corresponding model architecture and inference strategy. These designs enable
OmniHuman to fully leverage data-driven motion generation, ultimately achieving
highly realistic human video generation. More importantly, OmniHuman supports
various portrait contents (face close-up, portrait, half-body, full-body),
supports both talking and singing, handles human-object interactions and
challenging body poses, and accommodates different image styles. Compared to
existing end-to-end audio-driven methods, OmniHuman not only produces more
realistic videos, but also offers greater flexibility in inputs. It also
supports multiple driving modalities (audio-driven, video-driven and combined
driving signals). Video samples are provided on the ttfamily project page
(https://omnihuman-lab.github.io)Summary
AI-Generated Summary