WildActor: Unbeschränkte identitätserhaltende Videogenerierung

Zusammenfassung

Die produktionsreife Erzeugung menschlicher Videos erfordert digitale Darsteller, die eine streng konsistente Ganzkörperidentität über dynamische Einstellungen, Kameraperspektiven und Bewegungen hinweg beibehalten – eine Anforderung, die für bestehende Methoden nach wie vor eine Herausforderung darstellt. Bisherige Ansätze neigen oft zu einer gesichtszentrierten Darstellung, die die Konsistenz auf Körperebene vernachlässigt, oder erzeugen Copy-Paste-Artefakte, bei denen die Subjekte aufgrund von Posensperren starr wirken. Wir stellen Actor-18M vor, einen umfangreichen menschlichen Videodatensatz, der entwickelt wurde, um Identitätskonsistenz unter unkontrollierten Blickwinkeln und Umgebungen zu erfassen. Actor-18M umfasst 1,6 Millionen Videos mit 18 Millionen zugehörigen menschlichen Bildern und deckt sowohl beliebige Ansichten als auch kanonische Dreikanalbilder ab. Aufbauend auf Actor-18M schlagen wir WildActor vor, ein Framework für die erzeugung menschlicher Videos, die durch beliebige Blickwinkel konditioniert ist. Wir führen einen asymmetrischen, identitätserhaltenden Aufmerksamkeitsmechanismus ein, gekoppelt mit einer perspektivenadaptiven Monte-Carlo-Sampling-Strategie, die Referenzbedingungen iterativ anhand des Grenznutzens neu gewichtet, um eine ausgewogene Abdeckung der Mannigfaltigkeit zu erreichen. Auswertungen auf dem vorgeschlagenen Actor-Bench zeigen, dass WildActor die Körperidentität unter verschiedenen Einstellungsgrößen, großen Blickwinkelwechseln und erheblichen Bewegungen konsistent bewahrt und dabei bestehende Methoden in diesen anspruchsvollen Szenarien übertrifft.

English

Production-ready human video generation requires digital actors to maintain strictly consistent full-body identities across dynamic shots, viewpoints and motions, a setting that remains challenging for existing methods. Prior methods often suffer from face-centric behavior that neglects body-level consistency, or produce copy-paste artifacts where subjects appear rigid due to pose locking. We present Actor-18M, a large-scale human video dataset designed to capture identity consistency under unconstrained viewpoints and environments. Actor-18M comprises 1.6M videos with 18M corresponding human images, covering both arbitrary views and canonical three-view representations. Leveraging Actor-18M, we propose WildActor, a framework for any-view conditioned human video generation. We introduce an Asymmetric Identity-Preserving Attention mechanism coupled with a Viewpoint-Adaptive Monte Carlo Sampling strategy that iteratively re-weights reference conditions by marginal utility for balanced manifold coverage. Evaluated on the proposed Actor-Bench, WildActor consistently preserves body identity under diverse shot compositions, large viewpoint transitions, and substantial motions, surpassing existing methods in these challenging settings.

WildActor: Unbeschränkte identitätserhaltende Videogenerierung

WildActor: Unconstrained Identity-Preserving Video Generation

Zusammenfassung

Support