SynCamMaster: Синхронизация генерации видео с нескольких камер с различных точек обзораSynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse
Viewpoints
Недавние достижения в моделях видеодиффузии показали исключительные способности в имитации динамики реального мира и поддержании трехмерной согласованности. Этот прогресс вдохновляет нас исследовать потенциал этих моделей для обеспечения динамической согласованности с различных точек зрения, что является весьма желательной особенностью для приложений, таких как виртуальная съемка. В отличие от существующих методов, сосредоточенных на многокамерной генерации отдельных объектов для реконструкции в 4D, наше внимание сосредоточено на создании видеороликов с открытым миром с произвольных точек зрения, включая позиции камеры с 6 степенями свободы. Для достижения этой цели мы предлагаем модуль "включи и играй", который улучшает предварительно обученную модель текст-видео для генерации многокамерных видеороликов, обеспечивая согласованное содержание с различных точек зрения. В частности, мы представляем модуль синхронизации многокамерного вида для поддержания согласованности внешнего вида и геометрии среди этих точек зрения. Учитывая недостаток высококачественных данных для обучения, мы разрабатываем гибридную схему обучения, которая использует изображения с несколькими камерами и монокулярные видеоролики для дополнения многокамерных видеороликов, созданных в Unreal Engine. Более того, наш метод позволяет интересные расширения, такие как повторная отрисовка видеоролика с новых точек зрения. Мы также выпустили набор данных видеороликов с синхронизацией многокамерного вида, названный SynCamVideo-Dataset. Страница проекта: https://jianhongbai.github.io/SynCamMaster/.