OmniHuman-1: Riconsiderando l'Ingrandimento dei Modelli di Animazione Umana Condizionati a Uno Stadio
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models
February 3, 2025
Autori: Gaojie Lin, Jianwen Jiang, Jiaqi Yang, Zerong Zheng, Chao Liang
cs.AI
Abstract
L'animazione umana end-to-end, come la generazione di umani che parlano guidata dall'audio, ha registrato notevoli progressi negli ultimi anni. Tuttavia, i metodi esistenti faticano ancora a scalare come i modelli di generazione video generale di grandi dimensioni, limitando il loro potenziale nelle applicazioni reali. In questo articolo, proponiamo OmniHuman, un framework basato su Diffusion Transformer che scala i dati mescolando condizioni legate al movimento nella fase di addestramento. A tal fine, introduciamo due principi di addestramento per queste condizioni miste, insieme all'architettura del modello corrispondente e alla strategia di inferenza. Questi design consentono ad OmniHuman di sfruttare appieno la generazione di movimento basata sui dati, raggiungendo infine una generazione di video umani altamente realistica. Inoltre, OmniHuman supporta vari contenuti ritratto (dettaglio del viso, ritratto, mezzo corpo, corpo intero), supporta sia il parlato che il canto, gestisce interazioni umano-oggetto e pose corporee impegnative, e si adatta a diversi stili di immagine. Rispetto ai metodi esistenti guidati dall'audio end-to-end, OmniHuman non solo produce video più realistici, ma offre anche una maggiore flessibilità negli input. Supporta inoltre molteplici modalità di guida (guidata dall'audio, guidata dal video e segnali di guida combinati). Campioni video sono disponibili sulla pagina del progetto ttfamily (https://omnihuman-lab.github.io)
English
End-to-end human animation, such as audio-driven talking human generation,
has undergone notable advancements in the recent few years. However, existing
methods still struggle to scale up as large general video generation models,
limiting their potential in real applications. In this paper, we propose
OmniHuman, a Diffusion Transformer-based framework that scales up data by
mixing motion-related conditions into the training phase. To this end, we
introduce two training principles for these mixed conditions, along with the
corresponding model architecture and inference strategy. These designs enable
OmniHuman to fully leverage data-driven motion generation, ultimately achieving
highly realistic human video generation. More importantly, OmniHuman supports
various portrait contents (face close-up, portrait, half-body, full-body),
supports both talking and singing, handles human-object interactions and
challenging body poses, and accommodates different image styles. Compared to
existing end-to-end audio-driven methods, OmniHuman not only produces more
realistic videos, but also offers greater flexibility in inputs. It also
supports multiple driving modalities (audio-driven, video-driven and combined
driving signals). Video samples are provided on the ttfamily project page
(https://omnihuman-lab.github.io)Summary
AI-Generated Summary