OmniHuman-1: Überlegungen zur Skalierung von Ein-Stufen-bedingten menschlichen Animationsmodellen
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models
February 3, 2025
Autoren: Gaojie Lin, Jianwen Jiang, Jiaqi Yang, Zerong Zheng, Chao Liang
cs.AI
Zusammenfassung
Die End-to-End-Menschanimation, wie z.B. die audio-gesteuerte Generierung von sprechenden Menschen, hat in den letzten Jahren bemerkenswerte Fortschritte gemacht. Allerdings haben bestehende Methoden immer noch Schwierigkeiten, sich wie große allgemeine Videogenerierungsmodelle zu skalieren, was ihr Potenzial in realen Anwendungen einschränkt. In diesem Paper schlagen wir OmniHuman vor, ein auf Diffusion Transformer basierendes Framework, das Daten durch die Integration von bewegungsbezogenen Bedingungen in die Trainingsphase skalierbar macht. Zu diesem Zweck führen wir zwei Trainingsprinzipien für diese gemischten Bedingungen ein, zusammen mit der entsprechenden Modellarchitektur und Inferenzstrategie. Diese Entwürfe ermöglichen es OmniHuman, die datengetriebene Bewegungsgenerierung voll auszuschöpfen und letztendlich eine hochrealistische Generierung von menschlichen Videos zu erreichen. Vor allem unterstützt OmniHuman verschiedene Porträtinhalte (Nahaufnahme des Gesichts, Porträt, Halbkörper, Ganzkörper), unterstützt sowohl Sprechen als auch Singen, behandelt Mensch-Objekt-Interaktionen und anspruchsvolle Körperhaltungen und passt sich verschiedenen Bildstilen an. Im Vergleich zu bestehenden End-to-End audio-gesteuerten Methoden erzeugt OmniHuman nicht nur realistischere Videos, sondern bietet auch eine größere Flexibilität bei den Eingaben. Es unterstützt außerdem mehrere Steuerungsmodalitäten (audio-gesteuert, video-gesteuert und kombinierte Steuersignale). Videobeispiele finden sich auf der Projektseite von ttfamily (https://omnihuman-lab.github.io)
English
End-to-end human animation, such as audio-driven talking human generation,
has undergone notable advancements in the recent few years. However, existing
methods still struggle to scale up as large general video generation models,
limiting their potential in real applications. In this paper, we propose
OmniHuman, a Diffusion Transformer-based framework that scales up data by
mixing motion-related conditions into the training phase. To this end, we
introduce two training principles for these mixed conditions, along with the
corresponding model architecture and inference strategy. These designs enable
OmniHuman to fully leverage data-driven motion generation, ultimately achieving
highly realistic human video generation. More importantly, OmniHuman supports
various portrait contents (face close-up, portrait, half-body, full-body),
supports both talking and singing, handles human-object interactions and
challenging body poses, and accommodates different image styles. Compared to
existing end-to-end audio-driven methods, OmniHuman not only produces more
realistic videos, but also offers greater flexibility in inputs. It also
supports multiple driving modalities (audio-driven, video-driven and combined
driving signals). Video samples are provided on the ttfamily project page
(https://omnihuman-lab.github.io)Summary
AI-Generated Summary