REGEN: デュアルステージ生成ネットワークフレームワークによるゲーム内リアルタイムフォトリアリズム強化
REGEN: Real-Time Photorealism Enhancement in Games via a Dual-Stage Generative Network Framework
August 23, 2025
著者: Stefanos Pasios, Nikos Nikolaidis
cs.AI
要旨
フォトリアリズムは、プレイヤー体験を形成し、没入感、物語への没頭、視覚的忠実度に同時に影響を与えるため、現代のビデオゲームにおいて重要な側面です。近年のハードウェア技術の飛躍的進歩と最先端のレンダリング技術により、ビデオゲームの視覚的リアリズムは大幅に向上しましたが、動的環境での真のフォトリアリズムをリアルタイムフレームレートで達成することは、視覚品質とパフォーマンスのトレードオフのため、依然として大きな課題です。本短報では、生成的敵対ネットワーク(GAN)を使用してレンダリングされたゲームフレームのフォトリアリズムを向上させる新しいアプローチを提案します。この目的のために、リアルタイムフォトリアリズム向上のためのデュアルステージ生成ネットワークフレームワーク(REGEN)を提案します。このフレームワークは、堅牢な非ペア画像間変換モデルを採用し、意味的に一貫したフォトリアリスティックなフレームを生成することで、問題をより単純なペア画像間変換タスクに変換します。これにより、視覚品質を損なうことなくリアルタイム推論時間を達成できる軽量な方法でトレーニングが可能になります。私たちは、Grand Theft Auto Vにおいてこのフレームワークの有効性を実証し、このアプローチが堅牢な非ペアIm2Im法によって生成されたものと同等の視覚的結果を達成しながら、推論速度を32.14倍向上させることを示しました。また、ビデオゲームフレームを実世界画像の視覚的特性に向けて変換するために、軽量な非ペアIm2Im変換法を直接トレーニングして生成されたフォトリアリズム向上フレームよりも優れた結果が得られることも示しています。この研究のコード、事前学習済みモデル、デモは以下で利用可能です:https://github.com/stefanos50/REGEN。
English
Photorealism is an important aspect of modern video games since it can shape
the player experience and simultaneously impact the immersion, narrative
engagement, and visual fidelity. Although recent hardware technological
breakthroughs, along with state-of-the-art rendering technologies, have
significantly improved the visual realism of video games, achieving true
photorealism in dynamic environments at real-time frame rates still remains a
major challenge due to the tradeoff between visual quality and performance. In
this short paper, we present a novel approach for enhancing the photorealism of
rendered game frames using generative adversarial networks. To this end, we
propose Real-time photorealism Enhancement in Games via a dual-stage gEnerative
Network framework (REGEN), which employs a robust unpaired image-to-image
translation model to produce semantically consistent photorealistic frames that
transform the problem into a simpler paired image-to-image translation task.
This enables training with a lightweight method that can achieve real-time
inference time without compromising visual quality. We demonstrate the
effectiveness of our framework on Grand Theft Auto V, showing that the approach
achieves visual results comparable to the ones produced by the robust unpaired
Im2Im method while improving inference speed by 32.14 times. Our findings also
indicate that the results outperform the photorealism-enhanced frames produced
by directly training a lightweight unpaired Im2Im translation method to
translate the video game frames towards the visual characteristics of
real-world images. Code, pre-trained models, and demos for this work are
available at: https://github.com/stefanos50/REGEN.