Generatieve Wereldweergave
Generative World Renderer
April 2, 2026
Auteurs: Zheng-Hui Huang, Zhixiang Wang, Jiaming Tan, Ruihan Yu, Yidan Zhang, Bo Zheng, Yu-Lun Liu, Yung-Yu Chuang, Kaipeng Zhang
cs.AI
Samenvatting
Het opschalen van generatieve inverse en forward rendering naar realistische scenario's wordt belemmerd door de beperkte realiteitsgetrouwheid en temporele coherentie van bestaande synthetische datasets. Om deze hardnekkige domeinkloof te overbruggen, introduceren we een grootschalige, dynamische dataset samengesteld uit visueel complexe AAA-games. Met behulp van een nieuwe opname methode met dubbele schermen hebben we 4 miljoen continue frames (720p/30 FPS) geëxtraheerd van gesynchroniseerde RGB- en vijf G-bufferkanalen, afkomstig uit diverse scènes, visuele effecten en omgevingen, inclusief varianten met extreem weer en bewegingsonscherpte. Deze dataset bevordert bidirectioneel renderen op unieke wijze: het maakt robuuste geometrie- en materiaaldecompositie in de praktijk mogelijk en vergemakkelijkt hoogwaardige G-buffer-gestuurde videogeneratie. Verder stellen we, om de prestaties van inverse rendering in de praktijk te evalueren zonder grondwaarheid, een nieuw op VLM gebaseerd beoordelingsprotocol voor dat semantische, ruimtelijke en temporele consistentie meet. Experimenten tonen aan dat inverse renderers die zijn afgestemd op onze data superieure cross-dataset generalisatie en controleerbare generatie bereiken, terwijl onze VLM-evaluatie sterk correleert met menselijke beoordeling. In combinatie met onze toolkit stelt onze forward renderer gebruikers in staat om stijlen van AAA-games te bewerken vanuit G-buffers met behulp van tekstprompts.
English
Scaling generative inverse and forward rendering to real-world scenarios is bottlenecked by the limited realism and temporal coherence of existing synthetic datasets. To bridge this persistent domain gap, we introduce a large-scale, dynamic dataset curated from visually complex AAA games. Using a novel dual-screen stitched capture method, we extracted 4M continuous frames (720p/30 FPS) of synchronized RGB and five G-buffer channels across diverse scenes, visual effects, and environments, including adverse weather and motion-blur variants. This dataset uniquely advances bidirectional rendering: enabling robust in-the-wild geometry and material decomposition, and facilitating high-fidelity G-buffer-guided video generation. Furthermore, to evaluate the real-world performance of inverse rendering without ground truth, we propose a novel VLM-based assessment protocol measuring semantic, spatial, and temporal consistency. Experiments demonstrate that inverse renderers fine-tuned on our data achieve superior cross-dataset generalization and controllable generation, while our VLM evaluation strongly correlates with human judgment. Combined with our toolkit, our forward renderer enables users to edit styles of AAA games from G-buffers using text prompts.