WildActor: Geração de Vídeo Sem Restrições com Preservação de Identidade

Resumo

A geração de vídeos humanos pronta para produção exige que atores digitais mantenham identidades corporais completas estritamente consistentes em planos dinâmicos, ângulos de visão e movimentos, um cenário que permanece desafiador para os métodos existentes. Métodos anteriores frequentemente apresentam comportamento centrado no rosto que negligencia a consistência corporal, ou produzem artefatos de copiar-colar onde os sujeitos aparecem rígidos devido ao bloqueio de pose. Apresentamos o Actor-18M, um conjunto de dados de vídeo humano em larga escala projetado para capturar a consistência de identidade sob pontos de vista e ambientes não restritos. O Actor-18M compreende 1,6 milhão de vídeos com 18 milhões de imagens humanas correspondentes, abrangendo tanto visões arbitrárias quanto representações canônicas de três vistas. Aproveitando o Actor-18M, propomos o WildActor, uma estrutura para geração de vídeo humano condicionada a qualquer vista. Introduzimos um mecanismo de Atenção Assimétrica de Preservação de Identidade, associado a uma estratégia de Amostragem de Monte Carlo Adaptativa ao Ponto de Vista que re-pondera iterativamente as condições de referência pela utilidade marginal para uma cobertura equilibrada da variedade. Avaliado no Actor-Bench proposto, o WildActor preserva consistentemente a identidade corporal sob diversas composições de plano, grandes transições de ponto de vista e movimentos substanciais, superando os métodos existentes nestes cenários desafiadores.

English

Production-ready human video generation requires digital actors to maintain strictly consistent full-body identities across dynamic shots, viewpoints and motions, a setting that remains challenging for existing methods. Prior methods often suffer from face-centric behavior that neglects body-level consistency, or produce copy-paste artifacts where subjects appear rigid due to pose locking. We present Actor-18M, a large-scale human video dataset designed to capture identity consistency under unconstrained viewpoints and environments. Actor-18M comprises 1.6M videos with 18M corresponding human images, covering both arbitrary views and canonical three-view representations. Leveraging Actor-18M, we propose WildActor, a framework for any-view conditioned human video generation. We introduce an Asymmetric Identity-Preserving Attention mechanism coupled with a Viewpoint-Adaptive Monte Carlo Sampling strategy that iteratively re-weights reference conditions by marginal utility for balanced manifold coverage. Evaluated on the proposed Actor-Bench, WildActor consistently preserves body identity under diverse shot compositions, large viewpoint transitions, and substantial motions, surpassing existing methods in these challenging settings.