OmniHuman-1: Riconsiderando l'Ingrandimento dei Modelli di Animazione Umana Condizionati a Uno StadioOmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human
Animation Models
L'animazione umana end-to-end, come la generazione di umani che parlano guidata dall'audio, ha registrato notevoli progressi negli ultimi anni. Tuttavia, i metodi esistenti faticano ancora a scalare come i modelli di generazione video generale di grandi dimensioni, limitando il loro potenziale nelle applicazioni reali. In questo articolo, proponiamo OmniHuman, un framework basato su Diffusion Transformer che scala i dati mescolando condizioni legate al movimento nella fase di addestramento. A tal fine, introduciamo due principi di addestramento per queste condizioni miste, insieme all'architettura del modello corrispondente e alla strategia di inferenza. Questi design consentono ad OmniHuman di sfruttare appieno la generazione di movimento basata sui dati, raggiungendo infine una generazione di video umani altamente realistica. Inoltre, OmniHuman supporta vari contenuti ritratto (dettaglio del viso, ritratto, mezzo corpo, corpo intero), supporta sia il parlato che il canto, gestisce interazioni umano-oggetto e pose corporee impegnative, e si adatta a diversi stili di immagine. Rispetto ai metodi esistenti guidati dall'audio end-to-end, OmniHuman non solo produce video più realistici, ma offre anche una maggiore flessibilità negli input. Supporta inoltre molteplici modalità di guida (guidata dall'audio, guidata dal video e segnali di guida combinati). Campioni video sono disponibili sulla pagina del progetto ttfamily (https://omnihuman-lab.github.io)