Générateur de Mondes par Modèles Génératifs
Generative World Renderer
April 2, 2026
Auteurs: Zheng-Hui Huang, Zhixiang Wang, Jiaming Tan, Ruihan Yu, Yidan Zhang, Bo Zheng, Yu-Lun Liu, Yung-Yu Chuang, Kaipeng Zhang
cs.AI
Résumé
Le passage à l'échelle du rendu génératif inverse et direct pour des scénarios du monde réel est freiné par le réalisme limité et la cohérence temporelle des ensembles de données synthétiques existants. Pour combler cet écart de domaine persistant, nous présentons un jeu de données dynamique et à grande échelle, constitué à partir de jeux AAA visuellement complexes. En utilisant une nouvelle méthode de capture par écrans doubles et assemblage, nous avons extrait 4 millions d'images continues (720p/30 FPS) de données RVB synchronisées et de cinq canaux de G-buffer, couvrant une variété de scènes, d'effets visuels et d'environnements, y compris des conditions météorologiques adverses et des variantes avec flou de mouvement. Ce jeu de données fait progresser de manière unique le rendu bidirectionnel : il permet une décomposition robuste de la géométrie et des matériaux en conditions réelles, et facilite la génération vidéo guidée par G-buffer de haute fidélité. De plus, pour évaluer la performance en monde réel du rendu inverse sans vérité terrain, nous proposons un nouveau protocole d'évaluation basé sur des modèles de langage visuel (VLM) qui mesure la cohérence sémantique, spatiale et temporelle. Les expériences démontrent que les moteurs de rendu inverse affinés sur nos données atteignent une généralisation inter-jeux de données et une génération contrôlée supérieures, tandis que notre évaluation par VLM présente une forte corrélation avec le jugement humain. Combiné avec notre boîte à outils, notre moteur de rendu direct permet aux utilisateurs de modifier les styles de jeux AAA à partir des G-buffers en utilisant des invites textuelles.
English
Scaling generative inverse and forward rendering to real-world scenarios is bottlenecked by the limited realism and temporal coherence of existing synthetic datasets. To bridge this persistent domain gap, we introduce a large-scale, dynamic dataset curated from visually complex AAA games. Using a novel dual-screen stitched capture method, we extracted 4M continuous frames (720p/30 FPS) of synchronized RGB and five G-buffer channels across diverse scenes, visual effects, and environments, including adverse weather and motion-blur variants. This dataset uniquely advances bidirectional rendering: enabling robust in-the-wild geometry and material decomposition, and facilitating high-fidelity G-buffer-guided video generation. Furthermore, to evaluate the real-world performance of inverse rendering without ground truth, we propose a novel VLM-based assessment protocol measuring semantic, spatial, and temporal consistency. Experiments demonstrate that inverse renderers fine-tuned on our data achieve superior cross-dataset generalization and controllable generation, while our VLM evaluation strongly correlates with human judgment. Combined with our toolkit, our forward renderer enables users to edit styles of AAA games from G-buffers using text prompts.