Os Modelos de Difusão São Motores de Jogo em Tempo Real
Diffusion Models Are Real-Time Game Engines
August 27, 2024
Autores: Dani Valevski, Yaniv Leviathan, Moab Arar, Shlomi Fruchter
cs.AI
Resumo
Apresentamos o GameNGen, o primeiro motor de jogo alimentado inteiramente por um modelo neural que possibilita interação em tempo real com um ambiente complexo ao longo de trajetórias extensas com alta qualidade. O GameNGen pode simular interativamente o jogo clássico DOOM a mais de 20 quadros por segundo em uma única Unidade de Processamento Tensorial (TPU). A previsão do próximo quadro alcança um PSNR de 29.4, comparável à compressão JPEG com perdas. Avaliadores humanos são apenas ligeiramente melhores do que o acaso em distinguir pequenos trechos do jogo de trechos da simulação. O GameNGen é treinado em duas fases: (1) um agente de RL aprende a jogar o jogo e as sessões de treinamento são gravadas, e (2) um modelo de difusão é treinado para produzir o próximo quadro, condicionado à sequência de quadros e ações passadas. Augmentations de condicionamento possibilitam geração auto-regressiva estável ao longo de trajetórias extensas.
English
We present GameNGen, the first game engine powered entirely by a neural model
that enables real-time interaction with a complex environment over long
trajectories at high quality. GameNGen can interactively simulate the classic
game DOOM at over 20 frames per second on a single TPU. Next frame prediction
achieves a PSNR of 29.4, comparable to lossy JPEG compression. Human raters are
only slightly better than random chance at distinguishing short clips of the
game from clips of the simulation. GameNGen is trained in two phases: (1) an
RL-agent learns to play the game and the training sessions are recorded, and
(2) a diffusion model is trained to produce the next frame, conditioned on the
sequence of past frames and actions. Conditioning augmentations enable stable
auto-regressive generation over long trajectories.Summary
AI-Generated Summary