Une approche hybride pour réduire l'écart d'apparence Sim2real dans les jeux de données synthétiques de moteur de jeu

Résumé

Les moteurs de jeu vidéo constituent une source importante pour générer de grands volumes de données synthétiques visuelles destinées à l'entraînement et à l'évaluation des algorithmes de vision par ordinateur devant être déployés dans le monde réel. Bien que la fidélité visuelle des moteurs de jeu modernes ait été considérablement améliorée grâce à des technologies telles que le lancer de rayons, un écart d'apparence notable (sim2real) entre les images synthétiques et réelles persiste, limitant ainsi l'utilisation des jeux de données synthétiques dans des applications réelles. Dans cette lettre, nous étudions la capacité d'un modèle de diffusion de pointe pour la génération et l'édition d'images (FLUX.2-4B Klein) à améliorer le photoréalisme des jeux de données synthétiques et comparons ses performances à celles d'un modèle traditionnel de traduction image-à-image (REGEN). De plus, nous proposons une approche hybride qui combine les transformations géométriques et matérielles robustes des méthodes basées sur la diffusion avec les capacités d'appariement de distribution des techniques de traduction image-à-image. Les expériences démontrent que REGEN surpasse FLUX.2-4B Klein et qu'en combinant les modèles FLUX.2-4B Klein et REGEN, un meilleur réalisme visuel peut être atteint par rapport à l'utilisation individuelle de chaque modèle, tout en préservant la cohérence sémantique. Le code est disponible à l'adresse : https://github.com/stefanos50/Hybrid-Sim2Real

English

Video game engines have been an important source for generating large volumes of visual synthetic datasets for training and evaluating computer vision algorithms that are to be deployed in the real world. While the visual fidelity of modern game engines has been significantly improved with technologies such as ray-tracing, a notable sim2real appearance gap between the synthetic and the real-world images still remains, which limits the utilization of synthetic datasets in real-world applications. In this letter, we investigate the ability of a state-of-the-art image generation and editing diffusion model (FLUX.2-4B Klein) to enhance the photorealism of synthetic datasets and compare its performance against a traditional image-to-image translation model (REGEN). Furthermore, we propose a hybrid approach that combines the strong geometry and material transformations of diffusion-based methods with the distribution-matching capabilities of image-to-image translation techniques. Through experiments, it is demonstrated that REGEN outperforms FLUX.2-4B Klein and that by combining both FLUX.2-4B Klein and REGEN models, better visual realism can be achieved compared to using each model individually, while maintaining semantic consistency. The code is available at: https://github.com/stefanos50/Hybrid-Sim2Real

Une approche hybride pour réduire l'écart d'apparence Sim2real dans les jeux de données synthétiques de moteur de jeu

A Hybrid Approach for Closing the Sim2real Appearance Gap in Game Engine Synthetic Datasets

Résumé

Support