Un enfoque híbrido para cerrar la brecha de apariencia Sim2real en conjuntos de datos sintéticos de motores de juego

Resumen

Los motores de videojuegos han sido una fuente importante para generar grandes volúmenes de datos sintéticos visuales destinados a entrenar y evaluar algoritmos de visión por computadora que se desplegarán en el mundo real. Si bien la fidelidad visual de los motores de juegos modernos ha mejorado significativamente con tecnologías como el trazado de rayos, aún persiste una brecha de apariencia notable (sim2real) entre las imágenes sintéticas y las del mundo real, lo que limita la utilización de conjuntos de datos sintéticos en aplicaciones reales. En esta carta, investigamos la capacidad de un modelo de difusión de última generación para generación y edición de imágenes (FLUX.2-4B Klein) para mejorar el fotorrealismo de conjuntos de datos sintéticos y comparamos su rendimiento con un modelo tradicional de traducción de imagen a imagen (REGEN). Además, proponemos un enfoque híbrido que combina las fuertes transformaciones geométricas y de materiales de los métodos basados en difusión con las capacidades de igualación de distribuciones de las técnicas de traducción de imagen a imagen. Mediante experimentos, se demuestra que REGEN supera a FLUX.2-4B Klein y que, al combinar ambos modelos, FLUX.2-4B Klein y REGEN, se puede lograr un mejor realismo visual en comparación con el uso individual de cada modelo, manteniendo al mismo tiempo la coherencia semántica. El código está disponible en: https://github.com/stefanos50/Hybrid-Sim2Real

English

Video game engines have been an important source for generating large volumes of visual synthetic datasets for training and evaluating computer vision algorithms that are to be deployed in the real world. While the visual fidelity of modern game engines has been significantly improved with technologies such as ray-tracing, a notable sim2real appearance gap between the synthetic and the real-world images still remains, which limits the utilization of synthetic datasets in real-world applications. In this letter, we investigate the ability of a state-of-the-art image generation and editing diffusion model (FLUX.2-4B Klein) to enhance the photorealism of synthetic datasets and compare its performance against a traditional image-to-image translation model (REGEN). Furthermore, we propose a hybrid approach that combines the strong geometry and material transformations of diffusion-based methods with the distribution-matching capabilities of image-to-image translation techniques. Through experiments, it is demonstrated that REGEN outperforms FLUX.2-4B Klein and that by combining both FLUX.2-4B Klein and REGEN models, better visual realism can be achieved compared to using each model individually, while maintaining semantic consistency. The code is available at: https://github.com/stefanos50/Hybrid-Sim2Real

Un enfoque híbrido para cerrar la brecha de apariencia Sim2real en conjuntos de datos sintéticos de motores de juego

A Hybrid Approach for Closing the Sim2real Appearance Gap in Game Engine Synthetic Datasets

Resumen

Support