WildActor: Generación de Video sin Restricciones que Preserva la Identidad

Resumen

La generación de vídeos humanos listos para producción exige que los actores digitales mantengan identidades corporales completas estrictamente consistentes a través de planos dinámicos, puntos de vista y movimientos, un escenario que sigue siendo un desafío para los métodos existentes. Los métodos anteriores a menudo adolecen de un comportamiento centrado en el rostro que descuida la consistencia a nivel corporal, o producen artefactos de copia y pega donde los sujetos aparecen rígidos debido al bloqueo de posturas. Presentamos Actor-18M, un conjunto de datos de vídeo humano a gran escala diseñado para capturar la consistencia de identidad bajo puntos de vista y entornos no restringidos. Actor-18M comprende 1.6 millones de vídeos con 18 millones de imágenes humanas correspondientes, cubriendo tanto vistas arbitrarias como representaciones canónicas de tres vistas. Aprovechando Actor-18M, proponemos WildActor, un marco para la generación de vídeos humanos condicionada por cualquier vista. Introducimos un mecanismo de Atención Asimétrica para la Preservación de la Identidad, junto con una estrategia de Muestreo de Monte Carlo Adaptativo al Punto de Vista que re-pondera iterativamente las condiciones de referencia según la utilidad marginal para una cobertura equilibrada del manifold. Evaluado en el Actor-Bench propuesto, WildActor preserva consistentemente la identidad corporal bajo diversas composiciones de plano, transiciones de punto de vista amplias y movimientos sustanciales, superando a los métodos existentes en estos escenarios desafiantes.

English

Production-ready human video generation requires digital actors to maintain strictly consistent full-body identities across dynamic shots, viewpoints and motions, a setting that remains challenging for existing methods. Prior methods often suffer from face-centric behavior that neglects body-level consistency, or produce copy-paste artifacts where subjects appear rigid due to pose locking. We present Actor-18M, a large-scale human video dataset designed to capture identity consistency under unconstrained viewpoints and environments. Actor-18M comprises 1.6M videos with 18M corresponding human images, covering both arbitrary views and canonical three-view representations. Leveraging Actor-18M, we propose WildActor, a framework for any-view conditioned human video generation. We introduce an Asymmetric Identity-Preserving Attention mechanism coupled with a Viewpoint-Adaptive Monte Carlo Sampling strategy that iteratively re-weights reference conditions by marginal utility for balanced manifold coverage. Evaluated on the proposed Actor-Bench, WildActor consistently preserves body identity under diverse shot compositions, large viewpoint transitions, and substantial motions, surpassing existing methods in these challenging settings.

WildActor: Generación de Video sin Restricciones que Preserva la Identidad

WildActor: Unconstrained Identity-Preserving Video Generation

Resumen

Support