WildActor: Onbeperkte Identiteitsbewarende Videogeneratie

Samenvatting

Productieklare menselijke videogeneratie vereist dat digitale acteurs een strikt consistente volledige lichaamsidentiteit behouden over dynamische shots, gezichtspunten en bewegingen heen, een uitdaging waar bestaande methoden nog steeds mee worstelen. Eerdere methoden vertonen vaak een gezichtsgerichte focus die lichaamsoverkoepelende consistentie verwaarloost, of produceren copy-paste-artefacten waarbij personen stijf overkomen door pose-vergrendeling. Wij presenteren Actor-18M, een grootschalige dataset van menselijke video's die is ontworpen om identiteitsconsistentie vast te leggen onder onbeperkte gezichtspunten en omgevingen. Actor-18M omvat 1,6 miljoen video's met 18 miljoen bijbehorende menselijke afbeeldingen, en omvat zowel willekeurige aanzichten als canonieke drie-aanzicht representaties. Gebruikmakend van Actor-18M stellen we WildActor voor, een raamwerk voor menselijke videogeneratie met conditie op elk gewenst gezichtspunt. We introduceren een Asymmetrisch Identiteit-Bewarend Aandachtsmechanisme, gekoppeld aan een Viewpoint-Adaptieve Monte Carlo-steekproefstrategie die referentievoorwaarden iteratief herweegt op basis van marginaal nut voor een gebalanceerde dekking van de variëteit. Geëvalueerd op de voorgestelde Actor-Bench, behoudt WildActor consistent de lichaamsidentiteit onder diverse shotcomposities, grote gezichtspuntsovergangen en aanzienlijke bewegingen, en overtreft daarmee bestaande methoden in deze uitdagende omstandigheden.

English

Production-ready human video generation requires digital actors to maintain strictly consistent full-body identities across dynamic shots, viewpoints and motions, a setting that remains challenging for existing methods. Prior methods often suffer from face-centric behavior that neglects body-level consistency, or produce copy-paste artifacts where subjects appear rigid due to pose locking. We present Actor-18M, a large-scale human video dataset designed to capture identity consistency under unconstrained viewpoints and environments. Actor-18M comprises 1.6M videos with 18M corresponding human images, covering both arbitrary views and canonical three-view representations. Leveraging Actor-18M, we propose WildActor, a framework for any-view conditioned human video generation. We introduce an Asymmetric Identity-Preserving Attention mechanism coupled with a Viewpoint-Adaptive Monte Carlo Sampling strategy that iteratively re-weights reference conditions by marginal utility for balanced manifold coverage. Evaluated on the proposed Actor-Bench, WildActor consistently preserves body identity under diverse shot compositions, large viewpoint transitions, and substantial motions, surpassing existing methods in these challenging settings.

WildActor: Onbeperkte Identiteitsbewarende Videogeneratie

WildActor: Unconstrained Identity-Preserving Video Generation

Samenvatting

Support