WildActor: Неограниченная генерация видео с сохранением идентичности

Аннотация

Создание готовых к использованию человеческих видео требует от цифровых актеров поддержания строго согласованной идентичности всего тела в динамичных сценах, при различных ракурсах и движениях, что остается сложной задачей для существующих методов. Предыдущие подходы часто страдают от чрезмерной фокусировки на лице, пренебрегая согласованностью на уровне тела, или порождают артефакты типа "копирования-вставки", когда персонажи выглядят скованными из-за фиксации позы. Мы представляем Actor-18M, крупномасштабный набор данных о человеческих видео, разработанный для захвата идентичности в условиях неограниченных ракурсов и окружения. Actor-18M включает 1.6 млн видео с 18 млн соответствующих изображений людей, охватывая как произвольные виды, так и канонические трехпроекционные представления. Используя Actor-18M, мы предлагаем WildActor — фреймворк для генерации человеческого видео с условием по любому ракурсу. Мы вводим механизм Асимметричного Внимания с Сохранением Идентичности в сочетании со стратегией Адаптивного к Ракурсу Монте-Карло сэмплирования, которая итеративно перевзвешивает опорные условия по предельной полезности для сбалансированного покрытия многообразия. Оценка на предложенном Actor-Bench показывает, что WildActor стабильно сохраняет идентичность тела при разнообразных композициях кадра, значительных переходах между ракурсами и существенных движениях, превосходя существующие методы в этих сложных условиях.

English

Production-ready human video generation requires digital actors to maintain strictly consistent full-body identities across dynamic shots, viewpoints and motions, a setting that remains challenging for existing methods. Prior methods often suffer from face-centric behavior that neglects body-level consistency, or produce copy-paste artifacts where subjects appear rigid due to pose locking. We present Actor-18M, a large-scale human video dataset designed to capture identity consistency under unconstrained viewpoints and environments. Actor-18M comprises 1.6M videos with 18M corresponding human images, covering both arbitrary views and canonical three-view representations. Leveraging Actor-18M, we propose WildActor, a framework for any-view conditioned human video generation. We introduce an Asymmetric Identity-Preserving Attention mechanism coupled with a Viewpoint-Adaptive Monte Carlo Sampling strategy that iteratively re-weights reference conditions by marginal utility for balanced manifold coverage. Evaluated on the proposed Actor-Bench, WildActor consistently preserves body identity under diverse shot compositions, large viewpoint transitions, and substantial motions, surpassing existing methods in these challenging settings.

WildActor: Неограниченная генерация видео с сохранением идентичности

WildActor: Unconstrained Identity-Preserving Video Generation

Аннотация

Support