Renderizador de Mundos Generativo
Generative World Renderer
April 2, 2026
Autores: Zheng-Hui Huang, Zhixiang Wang, Jiaming Tan, Ruihan Yu, Yidan Zhang, Bo Zheng, Yu-Lun Liu, Yung-Yu Chuang, Kaipeng Zhang
cs.AI
Resumo
A escalabilidade da renderização generativa inversa e direta para cenários do mundo real é limitada pelo realismo e coerência temporal insuficientes dos conjuntos de dados sintéticos existentes. Para superar esta lacuna de domínio persistente, introduzimos um conjunto de dados dinâmico e em larga escala, curado a partir de jogos AAA visualmente complexos. Utilizando um método inédito de captura com dupla tela e costura de imagens, extraímos 4 milhões de quadros contínuos (720p/30 FPS) de canais RGB sincronizados e cinco canais de G-buffer em diversas cenas, efeitos visuais e ambientes, incluindo variantes de condições climáticas adversas e motion blur. Este conjunto de dados avança singularmente a renderização bidirecional: permitindo uma decomposição robusta de geometria e materiais em ambientes não controlados e facilitando a geração de vídeos de alta fidelidade guiada por G-buffer. Adicionalmente, para avaliar o desempenho no mundo real da renderização inversa sem dados de referência (ground truth), propomos um novo protocolo de avaliação baseado em Modelos de Linguagem Visual (VLM) que mede a consistência semântica, espacial e temporal. Experimentos demonstram que os modelos de renderização inversa ajustados com nossos dados alcançam uma generalização superior entre conjuntos de dados e uma geração controlável, enquanto nossa avaliação por VLM apresenta forte correlação com o julgamento humano. Combinado com nosso kit de ferramentas, nosso renderizador direto permite que os usuários editem estilos de jogos AAA a partir de G-buffers usando prompts de texto.
English
Scaling generative inverse and forward rendering to real-world scenarios is bottlenecked by the limited realism and temporal coherence of existing synthetic datasets. To bridge this persistent domain gap, we introduce a large-scale, dynamic dataset curated from visually complex AAA games. Using a novel dual-screen stitched capture method, we extracted 4M continuous frames (720p/30 FPS) of synchronized RGB and five G-buffer channels across diverse scenes, visual effects, and environments, including adverse weather and motion-blur variants. This dataset uniquely advances bidirectional rendering: enabling robust in-the-wild geometry and material decomposition, and facilitating high-fidelity G-buffer-guided video generation. Furthermore, to evaluate the real-world performance of inverse rendering without ground truth, we propose a novel VLM-based assessment protocol measuring semantic, spatial, and temporal consistency. Experiments demonstrate that inverse renderers fine-tuned on our data achieve superior cross-dataset generalization and controllable generation, while our VLM evaluation strongly correlates with human judgment. Combined with our toolkit, our forward renderer enables users to edit styles of AAA games from G-buffers using text prompts.