WildActor: Generazione Video senza Vincoli con Conservazione dell'Identità

Abstract

La generazione di video umani pronti per la produzione richiede che gli attori digitali mantengano identità corporee complete e rigorosamente consistenti attraverso inquadrature dinamiche, punti di vista e movimenti, un contesto che rimane impegnativo per i metodi esistenti. I metodi precedenti spesso soffrono di un comportamento centrato sul volto che trascura la coerenza a livello corporeo, o producono artefatti da "copia e incolla" in cui i soggetti appaiono rigidi a causa del blocco della posa. Presentiamo Actor-18M, un dataset video umano su larga scala progettato per catturare la coerenza dell'identità in condizioni di punti di vista e ambienti non vincolati. Actor-18M comprende 1.6 milioni di video con 18 milioni di immagini umane corrispondenti, coprendo sia visuali arbitrarie che rappresentazioni canoniche a tre visuali. Sfruttando Actor-18M, proponiamo WildActor, un framework per la generazione di video umani condizionata da qualsiasi punto di vista. Introduciamo un meccanismo di Attenzione Asimmetrica per la Conservazione dell'Identità accoppiato con una strategia di Campionamento Monte Carlo Adattivo al Punto di Vista che ricalcola iterativamente i pesi delle condizioni di riferimento in base all'utilità marginale per una copertura bilanciata del manifold. Valutato sul proposto Actor-Bench, WildActor preserva costantemente l'identità corporea sotto diverse composizioni dell'inquadratura, ampie transizioni di punto di vista e movimenti sostanziali, superando i metodi esistenti in questi contesti impegnativi.

English

Production-ready human video generation requires digital actors to maintain strictly consistent full-body identities across dynamic shots, viewpoints and motions, a setting that remains challenging for existing methods. Prior methods often suffer from face-centric behavior that neglects body-level consistency, or produce copy-paste artifacts where subjects appear rigid due to pose locking. We present Actor-18M, a large-scale human video dataset designed to capture identity consistency under unconstrained viewpoints and environments. Actor-18M comprises 1.6M videos with 18M corresponding human images, covering both arbitrary views and canonical three-view representations. Leveraging Actor-18M, we propose WildActor, a framework for any-view conditioned human video generation. We introduce an Asymmetric Identity-Preserving Attention mechanism coupled with a Viewpoint-Adaptive Monte Carlo Sampling strategy that iteratively re-weights reference conditions by marginal utility for balanced manifold coverage. Evaluated on the proposed Actor-Bench, WildActor consistently preserves body identity under diverse shot compositions, large viewpoint transitions, and substantial motions, surpassing existing methods in these challenging settings.

WildActor: Generazione Video senza Vincoli con Conservazione dell'Identità

WildActor: Unconstrained Identity-Preserving Video Generation

Abstract

Support