OmniHuman-1: Repensando a Ampliação de Modelos de Animação Humana Condicionados de Estágio Único
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models
February 3, 2025
Autores: Gaojie Lin, Jianwen Jiang, Jiaqi Yang, Zerong Zheng, Chao Liang
cs.AI
Resumo
A animação humana de ponta a ponta, como a geração de humanos falantes impulsionada por áudio, passou por avanços notáveis nos últimos anos. No entanto, os métodos existentes ainda enfrentam dificuldades para escalar como grandes modelos gerais de geração de vídeo, limitando seu potencial em aplicações reais. Neste artigo, propomos o OmniHuman, um framework baseado em Transformador de Difusão que amplia os dados misturando condições relacionadas ao movimento na fase de treinamento. Para isso, introduzimos dois princípios de treinamento para essas condições mistas, juntamente com a arquitetura do modelo correspondente e estratégia de inferência. Esses projetos permitem que o OmniHuman aproveite totalmente a geração de movimento orientada por dados, alcançando, em última instância, a geração de vídeos humanos altamente realistas. Mais importante ainda, o OmniHuman suporta vários conteúdos de retrato (close-up do rosto, retrato, meio corpo, corpo inteiro), suporta tanto fala quanto canto, lida com interações humano-objeto e poses corporais desafiadoras, e acomoda diferentes estilos de imagem. Comparado aos métodos existentes de ponta a ponta impulsionados por áudio, o OmniHuman não apenas produz vídeos mais realistas, mas também oferece maior flexibilidade nos inputs. Ele também suporta múltiplas modalidades de controle (impulsionado por áudio, impulsionado por vídeo e sinais de controle combinados). Amostras de vídeo estão disponíveis na página do projeto ttfamily (https://omnihuman-lab.github.io)
English
End-to-end human animation, such as audio-driven talking human generation,
has undergone notable advancements in the recent few years. However, existing
methods still struggle to scale up as large general video generation models,
limiting their potential in real applications. In this paper, we propose
OmniHuman, a Diffusion Transformer-based framework that scales up data by
mixing motion-related conditions into the training phase. To this end, we
introduce two training principles for these mixed conditions, along with the
corresponding model architecture and inference strategy. These designs enable
OmniHuman to fully leverage data-driven motion generation, ultimately achieving
highly realistic human video generation. More importantly, OmniHuman supports
various portrait contents (face close-up, portrait, half-body, full-body),
supports both talking and singing, handles human-object interactions and
challenging body poses, and accommodates different image styles. Compared to
existing end-to-end audio-driven methods, OmniHuman not only produces more
realistic videos, but also offers greater flexibility in inputs. It also
supports multiple driving modalities (audio-driven, video-driven and combined
driving signals). Video samples are provided on the ttfamily project page
(https://omnihuman-lab.github.io)Summary
AI-Generated Summary