Генеративный рендерер миров
Generative World Renderer
April 2, 2026
Авторы: Zheng-Hui Huang, Zhixiang Wang, Jiaming Tan, Ruihan Yu, Yidan Zhang, Bo Zheng, Yu-Lun Liu, Yung-Yu Chuang, Kaipeng Zhang
cs.AI
Аннотация
Масштабирование генеративного обратного и прямого рендеринга для реальных сценариев ограничено недостаточным реализмом и временной согласованностью существующих синтетических наборов данных. Для преодоления этого устойчивого разрыва между доменами мы представляем крупномасштабный динамический набор данных, созданный на основе визуально сложных AAA-игр. Используя новый метод захвата со сшивкой двух экранов, мы извлекли 4 млн непрерывных кадров (720p/30 кадр/с) синхронизированных RGB-данных и пяти каналов G-буфера из разнообразных сцен, визуальных эффектов и окружений, включая варианты с неблагоприятными погодными условиями и движением с размытием. Этот набор данных уникальным образом продвигает двунаправленный рендеринг: обеспечивая надежное декомпозирование геометрии и материалов в естественных условиях, а также способствуя генерации видео высокого качества с управлением через G-буфер. Кроме того, для оценки производительности обратного рендеринга в реальных условиях без использования эталонных данных мы предлагаем новый протокол оценки на основе VLM, измеряющий семантическую, пространственную и временную согласованность. Эксперименты показывают, что модели обратного рендеринга, дообученные на наших данных, достигают превосходной межнаборовой обобщающей способности и управляемой генерации, в то время как наша VLM-оценка сильно коррелирует с человеческими суждениями. В сочетании с нашим инструментарием наш прямой рендерер позволяет пользователям редактировать стили AAA-игр из G-буферов с помощью текстовых запросов.
English
Scaling generative inverse and forward rendering to real-world scenarios is bottlenecked by the limited realism and temporal coherence of existing synthetic datasets. To bridge this persistent domain gap, we introduce a large-scale, dynamic dataset curated from visually complex AAA games. Using a novel dual-screen stitched capture method, we extracted 4M continuous frames (720p/30 FPS) of synchronized RGB and five G-buffer channels across diverse scenes, visual effects, and environments, including adverse weather and motion-blur variants. This dataset uniquely advances bidirectional rendering: enabling robust in-the-wild geometry and material decomposition, and facilitating high-fidelity G-buffer-guided video generation. Furthermore, to evaluate the real-world performance of inverse rendering without ground truth, we propose a novel VLM-based assessment protocol measuring semantic, spatial, and temporal consistency. Experiments demonstrate that inverse renderers fine-tuned on our data achieve superior cross-dataset generalization and controllable generation, while our VLM evaluation strongly correlates with human judgment. Combined with our toolkit, our forward renderer enables users to edit styles of AAA games from G-buffers using text prompts.