ChatPaper.aiChatPaper

Generativer Welt-Renderer

Generative World Renderer

April 2, 2026
Autoren: Zheng-Hui Huang, Zhixiang Wang, Jiaming Tan, Ruihan Yu, Yidan Zhang, Bo Zheng, Yu-Lun Liu, Yung-Yu Chuang, Kaipeng Zhang
cs.AI

Zusammenfassung

Die Skalierung generativer inverser und Forward-Rendering-Verfahren für reale Szenarien wird durch den begrenzten Realismus und die mangelnde zeitliche Kohärenz bestehender synthetischer Datensätze behindert. Um diese anhaltende Domänenlücke zu schließen, stellen wir einen groß angelegten, dynamischen Datensatz vor, der aus visuell komplexen AAA-Spielen kuratiert wurde. Mithilfe einer neuartigen Dual-Screen-Stitched-Capture-Methode extrahierten wir 4 Millionen kontinuierliche Frames (720p/30 FPS) synchronisierter RGB- und fünf G-Buffer-Kanäle über diverse Szenen, visuelle Effekte und Umgebungen hinweg, einschließlich Varianten mit widrigen Wetterbedingungen und Bewegungsunschärfe. Dieser Datensatz erweitert bidirektionale Rendering-Verfahren in einzigartiger Weise: Er ermöglicht eine robuste Geometrie- und Materialzerlegung unter realen Bedingungen und erleichtert die hochauflösende, G-Buffer-gesteuerte Videogenerierung. Darüber hinaus schlagen wir zur Bewertung der inversen Rendering-Leistung in realen Szenarien ohne Ground-Truth-Daten ein neuartiges, VLM-basiertes Bewertungsprotokoll vor, das semantische, räumliche und zeitliche Konsistenz misst. Experimente zeigen, dass auf unseren Daten feinabgestimmte inverse Renderer eine überlegene datensatzübergreifende Generalisierung und kontrollierbare Generierung erreichen, während unsere VLM-Bewertung stark mit menschlichen Urteilen korreliert. In Kombination mit unserem Toolkit ermöglicht unser Forward-Renderer Nutzern, die Stile von AAA-Spielen anhand von G-Buffern mittels Textprompts zu bearbeiten.
English
Scaling generative inverse and forward rendering to real-world scenarios is bottlenecked by the limited realism and temporal coherence of existing synthetic datasets. To bridge this persistent domain gap, we introduce a large-scale, dynamic dataset curated from visually complex AAA games. Using a novel dual-screen stitched capture method, we extracted 4M continuous frames (720p/30 FPS) of synchronized RGB and five G-buffer channels across diverse scenes, visual effects, and environments, including adverse weather and motion-blur variants. This dataset uniquely advances bidirectional rendering: enabling robust in-the-wild geometry and material decomposition, and facilitating high-fidelity G-buffer-guided video generation. Furthermore, to evaluate the real-world performance of inverse rendering without ground truth, we propose a novel VLM-based assessment protocol measuring semantic, spatial, and temporal consistency. Experiments demonstrate that inverse renderers fine-tuned on our data achieve superior cross-dataset generalization and controllable generation, while our VLM evaluation strongly correlates with human judgment. Combined with our toolkit, our forward renderer enables users to edit styles of AAA games from G-buffers using text prompts.
PDF742April 4, 2026