WildActor: 제약 없는 정체성 보존 비디오 생성
WildActor: Unconstrained Identity-Preserving Video Generation
February 28, 2026
저자: Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu
cs.AI
초록
실전 적용 가능한 인간 비디오 생성에는 디지털 배우가 동적인 샷, 시점, 동작 전반에 걸쳐 엄격하게 일관된 전신 정체성을 유지해야 하며, 이는 기존 방법론들이 여전히 어려움을 겪는 과제입니다. 기존 방법론들은 신체 수준 일관성을 소홀히 하는 얼굴 중심 동작 문제를 자주 겪거나, 포즈 고정으로 인해 피사체가 경직되어 보이는 복사-붙여넣기 아티팩트를 생성합니다. 우리는 제약 없는 시점과 환경에서 정체성 일관성을 포착하기 위해 설계된 대규모 인간 비디오 데이터셋인 Actor-18M을 소개합니다. Actor-18M은 임의의 시점과 정규화된 3시점 표현을 모두 포함하는 160만 개의 비디오와 1,800만 개의 해당 인간 이미지로 구성됩니다. Actor-18M을 활용하여 우리는 임의의 시점 조건부 인간 비디오 생성을 위한 프레임워크인 WildActor를 제안합니다. 우리는 균형 잡힌 매니폴드 커버리지를 위해 한계 효용에 따라 참조 조건을 반복적으로 재가중하는 시점 적응형 몬테카를로 샘플링 전략과 결합된 비대칭 정체성 보존 어텐션 메커니즘을 도입합니다. 제안된 Actor-Bench에서 평가한 결과, WildActor는 다양한 샷 구성, 큰 시점 전환, 상당한 동작 하에서도 신체 정체성을 일관되게 유지하며 이러한 까다로운 조건에서 기존 방법론들을 능가했습니다.
English
Production-ready human video generation requires digital actors to maintain strictly consistent full-body identities across dynamic shots, viewpoints and motions, a setting that remains challenging for existing methods. Prior methods often suffer from face-centric behavior that neglects body-level consistency, or produce copy-paste artifacts where subjects appear rigid due to pose locking. We present Actor-18M, a large-scale human video dataset designed to capture identity consistency under unconstrained viewpoints and environments. Actor-18M comprises 1.6M videos with 18M corresponding human images, covering both arbitrary views and canonical three-view representations. Leveraging Actor-18M, we propose WildActor, a framework for any-view conditioned human video generation. We introduce an Asymmetric Identity-Preserving Attention mechanism coupled with a Viewpoint-Adaptive Monte Carlo Sampling strategy that iteratively re-weights reference conditions by marginal utility for balanced manifold coverage. Evaluated on the proposed Actor-Bench, WildActor consistently preserves body identity under diverse shot compositions, large viewpoint transitions, and substantial motions, surpassing existing methods in these challenging settings.