REGEN: Mejora del Fotorrealismo en Tiempo Real en Videojuegos mediante un Marco de Red Generativa de Dos Etapas

Resumen

El fotorrealismo es un aspecto importante de los videojuegos modernos, ya que puede moldear la experiencia del jugador y, al mismo tiempo, influir en la inmersión, el compromiso narrativo y la fidelidad visual. Aunque los recientes avances tecnológicos en hardware, junto con las tecnologías de renderizado de vanguardia, han mejorado significativamente el realismo visual de los videojuegos, lograr un verdadero fotorrealismo en entornos dinámicos con tasas de cuadros en tiempo real sigue siendo un gran desafío debido al equilibrio entre la calidad visual y el rendimiento. En este breve artículo, presentamos un enfoque novedoso para mejorar el fotorrealismo de los fotogramas renderizados en videojuegos utilizando redes generativas adversarias. Para ello, proponemos Real-time photorealism Enhancement in Games via a dual-stage gEnerative Network framework (REGEN), que emplea un modelo robusto de traducción de imagen a imagen no emparejada para producir fotogramas fotorrealistas semánticamente consistentes que transforman el problema en una tarea más simple de traducción de imagen a imagen emparejada. Esto permite el entrenamiento con un método ligero que puede lograr un tiempo de inferencia en tiempo real sin comprometer la calidad visual. Demostramos la efectividad de nuestro framework en Grand Theft Auto V, mostrando que el enfoque logra resultados visuales comparables a los producidos por el robusto método Im2Im no emparejado, mientras mejora la velocidad de inferencia en 32.14 veces. Nuestros hallazgos también indican que los resultados superan los fotogramas mejorados con fotorrealismo producidos al entrenar directamente un método ligero de traducción Im2Im no emparejado para traducir los fotogramas del videojuego hacia las características visuales de imágenes del mundo real. El código, modelos preentrenados y demostraciones de este trabajo están disponibles en: https://github.com/stefanos50/REGEN.

English

Photorealism is an important aspect of modern video games since it can shape the player experience and simultaneously impact the immersion, narrative engagement, and visual fidelity. Although recent hardware technological breakthroughs, along with state-of-the-art rendering technologies, have significantly improved the visual realism of video games, achieving true photorealism in dynamic environments at real-time frame rates still remains a major challenge due to the tradeoff between visual quality and performance. In this short paper, we present a novel approach for enhancing the photorealism of rendered game frames using generative adversarial networks. To this end, we propose Real-time photorealism Enhancement in Games via a dual-stage gEnerative Network framework (REGEN), which employs a robust unpaired image-to-image translation model to produce semantically consistent photorealistic frames that transform the problem into a simpler paired image-to-image translation task. This enables training with a lightweight method that can achieve real-time inference time without compromising visual quality. We demonstrate the effectiveness of our framework on Grand Theft Auto V, showing that the approach achieves visual results comparable to the ones produced by the robust unpaired Im2Im method while improving inference speed by 32.14 times. Our findings also indicate that the results outperform the photorealism-enhanced frames produced by directly training a lightweight unpaired Im2Im translation method to translate the video game frames towards the visual characteristics of real-world images. Code, pre-trained models, and demos for this work are available at: https://github.com/stefanos50/REGEN.