RealMaster: Преобразование рендеренных сцен в фотореалистичное видео

Аннотация

Современные модели генерации видео демонстрируют впечатляющий фотореализм, но им не хватает точного контроля, необходимого для соответствия генерируемого контента конкретным требованиям сцены. Более того, без наличия явной лежащей в основе геометрии эти модели не могут гарантировать 3D-консистентность. С другой стороны, 3D-движки обеспечивают детальный контроль над каждым элементом сцены и по своей природе предоставляют нативную 3D-консистентность, однако их вывод часто остается в ловушке "зловещей долины". Преодоление этого разрыва между синтетическим и реальным миром требует как структурной точности, при которой вывод должен в точности сохранять геометрию и динамику входных данных, так и глобальной семантической трансформации, при которой материалы, освещение и текстуры должны быть целостно преобразованы для достижения фотореализма. Мы представляем RealMaster — метод, который использует модели диффузии видео для преобразования рендеренного видео в фотореалистичное видео при полном сохранении соответствия выходным данным 3D-движка. Для обучения этой модели мы генерируем парный набор данных с помощью стратегии распространения на основе якорей, при которой первый и последний кадры улучшаются для реалистичности и распространяются на промежуточные кадры с использованием геометрических условий. Затем мы обучаем IC-LoRA на этих парных видео, чтобы перенести качественные результаты пайплайна в модель, которая обобщается за рамки ограничений пайплайна, обрабатывает объекты и персонажи, появляющиеся в середине последовательности, и позволяет проводить вывод без необходимости в якорных кадрах. При оценке на сложных последовательностях из GTA-V, RealMaster значительно превосходит существующие базовые методы редактирования видео, улучшая фотореализм при сохранении геометрии, динамики и идентичности, заданных исходным 3D-контролем.

English

State-of-the-art video generation models produce remarkable photorealism, but they lack the precise control required to align generated content with specific scene requirements. Furthermore, without an underlying explicit geometry, these models cannot guarantee 3D consistency. Conversely, 3D engines offer granular control over every scene element and provide native 3D consistency by design, yet their output often remains trapped in the "uncanny valley". Bridging this sim-to-real gap requires both structural precision, where the output must exactly preserve the geometry and dynamics of the input, and global semantic transformation, where materials, lighting, and textures must be holistically transformed to achieve photorealism. We present RealMaster, a method that leverages video diffusion models to lift rendered video into photorealistic video while maintaining full alignment with the output of the 3D engine. To train this model, we generate a paired dataset via an anchor-based propagation strategy, where the first and last frames are enhanced for realism and propagated across the intermediate frames using geometric conditioning cues. We then train an IC-LoRA on these paired videos to distill the high-quality outputs of the pipeline into a model that generalizes beyond the pipeline's constraints, handling objects and characters that appear mid-sequence and enabling inference without requiring anchor frames. Evaluated on complex GTA-V sequences, RealMaster significantly outperforms existing video editing baselines, improving photorealism while preserving the geometry, dynamics, and identity specified by the original 3D control.

RealMaster: Преобразование рендеренных сцен в фотореалистичное видео

RealMaster: Lifting Rendered Scenes into Photorealistic Video

Аннотация

Support