WildActor : Génération de vidéos préservant l'identité sans contraintes

Résumé

La génération de vidéos humaines prêtes pour la production exige que les acteurs numériques maintiennent une identité corporelle strictement cohérente à travers des plans dynamiques, des angles de vue et des mouvements variés, un cadre qui reste difficile pour les méthodes existantes. Les méthodes antérieures souffrent souvent d'un comportement centré sur le visage qui néglige la cohérence au niveau du corps, ou produisent des artefacts de type "copier-coller" où les sujets apparaissent rigides en raison d'un verrouillage de posture. Nous présentons Actor-18M, un jeu de données vidéo humain à grande échelle conçu pour capturer la cohérence identitaire sous des angles de vue et environnements non contraints. Actor-18M comprend 1,6 million de vidéos avec 18 millions d'images humaines correspondantes, couvrant à la fois des vues arbitraires et des représentations canoniques à trois vues. En tirant parti d'Actor-18M, nous proposons WildActor, un cadre pour la génération de vidéos humaines conditionnée par n'importe quel angle de vue. Nous introduisons un mécanisme d'Attention Asymétrique de Préservation de l'Identité couplé à une stratégie d'Échantillonnage de Monte-Carlo Adaptatif au Point de Vue qui pondère itérativement les conditions de référence par l'utilité marginale pour une couverture équilibrée de la variété. Évalué sur le benchmark Actor-Bench proposé, WildActor préserve systématiquement l'identité corporelle sous diverses compositions de plans, de larges transitions de point de vue et des mouvements substantiels, surpassant les méthodes existantes dans ces configurations difficiles.

English

Production-ready human video generation requires digital actors to maintain strictly consistent full-body identities across dynamic shots, viewpoints and motions, a setting that remains challenging for existing methods. Prior methods often suffer from face-centric behavior that neglects body-level consistency, or produce copy-paste artifacts where subjects appear rigid due to pose locking. We present Actor-18M, a large-scale human video dataset designed to capture identity consistency under unconstrained viewpoints and environments. Actor-18M comprises 1.6M videos with 18M corresponding human images, covering both arbitrary views and canonical three-view representations. Leveraging Actor-18M, we propose WildActor, a framework for any-view conditioned human video generation. We introduce an Asymmetric Identity-Preserving Attention mechanism coupled with a Viewpoint-Adaptive Monte Carlo Sampling strategy that iteratively re-weights reference conditions by marginal utility for balanced manifold coverage. Evaluated on the proposed Actor-Bench, WildActor consistently preserves body identity under diverse shot compositions, large viewpoint transitions, and substantial motions, surpassing existing methods in these challenging settings.

WildActor : Génération de vidéos préservant l'identité sans contraintes

WildActor: Unconstrained Identity-Preserving Video Generation

Résumé

Support