OmniHuman-1: Het heroverwegen van het opschalen van menselijke animatiemodellen in één fase.
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models
February 3, 2025
Auteurs: Gaojie Lin, Jianwen Jiang, Jiaqi Yang, Zerong Zheng, Chao Liang
cs.AI
Samenvatting
End-to-end menselijke animatie, zoals door audio aangestuurde menselijke generatie van spraak, heeft opmerkelijke vooruitgang geboekt in de afgelopen jaren. Echter, bestaande methoden hebben nog steeds moeite om op te schalen als grote generieke videogeneratiemodellen, waardoor hun potentieel in echte toepassingen beperkt blijft. In dit artikel stellen we OmniHuman voor, een op Diffusion Transformer gebaseerd raamwerk dat gegevens opschalen door bewegingsgerelateerde voorwaarden te mengen in de trainingsfase. Hiertoe introduceren we twee trainingsprincipes voor deze gemengde voorwaarden, samen met de bijbehorende modelarchitectuur en inferentiestrategie. Deze ontwerpen stellen OmniHuman in staat om volledig gebruik te maken van op gegevens gebaseerde bewegingsgeneratie en uiteindelijk zeer realistische menselijke videogeneratie te bereiken. Belangrijker nog, OmniHuman ondersteunt verschillende portretinhoud (close-up van het gezicht, portret, half lichaam, volledig lichaam), ondersteunt zowel praten als zingen, behandelt mens-objectinteracties en uitdagende lichaamshoudingen, en past zich aan verschillende beeldstijlen aan. In vergelijking met bestaande end-to-end audio-aangestuurde methoden produceert OmniHuman niet alleen realistischere video's, maar biedt het ook meer flexibiliteit in invoer. Het ondersteunt ook meerdere aansturingsmodaliteiten (audio-aangestuurd, video-aangestuurd en gecombineerde aansturingssignalen). Videovoorbeelden zijn te vinden op de projectpagina van ttfamily (https://omnihuman-lab.github.io)
English
End-to-end human animation, such as audio-driven talking human generation,
has undergone notable advancements in the recent few years. However, existing
methods still struggle to scale up as large general video generation models,
limiting their potential in real applications. In this paper, we propose
OmniHuman, a Diffusion Transformer-based framework that scales up data by
mixing motion-related conditions into the training phase. To this end, we
introduce two training principles for these mixed conditions, along with the
corresponding model architecture and inference strategy. These designs enable
OmniHuman to fully leverage data-driven motion generation, ultimately achieving
highly realistic human video generation. More importantly, OmniHuman supports
various portrait contents (face close-up, portrait, half-body, full-body),
supports both talking and singing, handles human-object interactions and
challenging body poses, and accommodates different image styles. Compared to
existing end-to-end audio-driven methods, OmniHuman not only produces more
realistic videos, but also offers greater flexibility in inputs. It also
supports multiple driving modalities (audio-driven, video-driven and combined
driving signals). Video samples are provided on the ttfamily project page
(https://omnihuman-lab.github.io)Summary
AI-Generated Summary