Renderizador Generativo de Mundos
Generative World Renderer
April 2, 2026
Autores: Zheng-Hui Huang, Zhixiang Wang, Jiaming Tan, Ruihan Yu, Yidan Zhang, Bo Zheng, Yu-Lun Liu, Yung-Yu Chuang, Kaipeng Zhang
cs.AI
Resumen
La escalabilidad del renderizado inverso y directo generativo a escenarios del mundo real se ve limitada por el realismo y la coherencia temporal insuficientes de los conjuntos de datos sintéticos existentes. Para cerrar esta brecha de dominio persistente, presentamos un conjunto de datos dinámico a gran escala, creado a partir de videojuegos AAA visualmente complejos. Utilizando un novedoso método de captura con pantalla dual y empalme, extrajimos 4 millones de frames continuos (720p/30 FPS) de canales RGB sincronizados y cinco canales de G-buffer en diversas escenas, efectos visuales y entornos, incluyendo variantes de clima adverso y desenfoque de movimiento. Este conjunto de datos impulsa de manera única el renderizado bidireccional: permite una descomposición robusta de geometría y materiales en entornos naturales y facilita la generación de vídeo de alta fidelidad guiada por G-buffer. Además, para evaluar el rendimiento en el mundo real del renderizado inverso sin datos de referencia, proponemos un novedoso protocolo de evaluación basado en VLM que mide la coherencia semántica, espacial y temporal. Los experimentos demuestran que los motores de renderizado inverso ajustados con nuestros datos logran una generalización superior entre conjuntos de datos y una generación controlable, mientras que nuestra evaluación VLM se correlaciona fuertemente con el criterio humano. Combinado con nuestro kit de herramientas, nuestro motor de renderizado directo permite a los usuarios editar los estilos de videojuegos AAA a partir de G-buffers utilizando instrucciones de texto.
English
Scaling generative inverse and forward rendering to real-world scenarios is bottlenecked by the limited realism and temporal coherence of existing synthetic datasets. To bridge this persistent domain gap, we introduce a large-scale, dynamic dataset curated from visually complex AAA games. Using a novel dual-screen stitched capture method, we extracted 4M continuous frames (720p/30 FPS) of synchronized RGB and five G-buffer channels across diverse scenes, visual effects, and environments, including adverse weather and motion-blur variants. This dataset uniquely advances bidirectional rendering: enabling robust in-the-wild geometry and material decomposition, and facilitating high-fidelity G-buffer-guided video generation. Furthermore, to evaluate the real-world performance of inverse rendering without ground truth, we propose a novel VLM-based assessment protocol measuring semantic, spatial, and temporal consistency. Experiments demonstrate that inverse renderers fine-tuned on our data achieve superior cross-dataset generalization and controllable generation, while our VLM evaluation strongly correlates with human judgment. Combined with our toolkit, our forward renderer enables users to edit styles of AAA games from G-buffers using text prompts.