Een hybride aanpak voor het dichten van de Sim2Real-uiterlijk-kloof in synthetische datasets gegenereerd door game-engines

Samenvatting

Videogame-engines zijn een belangrijke bron geweest voor het genereren van grote hoeveelheden visuele synthetische datasets voor het trainen en evalueren van computervisie-algoritmen die in de echte wereld moeten worden ingezet. Hoewel de visuele weergave van moderne game-engines aanzienlijk is verbeterd met technologieën zoals ray-tracing, blijft er een opmerkelijk sim2real-uitstralingsgat tussen de synthetische en de echte wereldbeelden bestaan, wat het gebruik van synthetische datasets in real-world toepassingen beperkt. In dit artikel onderzoeken we het vermogen van een state-of-the-art diffusiemodel voor beeldgeneratie en -bewerking (FLUX.2-4B Klein) om de fotorealistische kwaliteit van synthetische datasets te verbeteren en vergelijken we de prestaties met een traditioneel image-to-image-vertaalmodel (REGEN). Verder stellen we een hybride aanpak voor die de sterke geometrie- en materiaaltransformaties van diffusiegebaseerde methoden combineert met de distributie-matchingcapaciteiten van image-to-image-vertaaltechnieken. Uit experimenten blijkt dat REGEN beter presteert dan FLUX.2-4B Klein en dat door een combinatie van zowel FLUX.2-4B Klein- als REGEN-modellen een betere visuele realiteit kan worden bereikt in vergelijking met het afzonderlijk gebruik van elk model, waarbij de semantische consistentie behouden blijft. De code is beschikbaar op: https://github.com/stefanos50/Hybrid-Sim2Real

English

Video game engines have been an important source for generating large volumes of visual synthetic datasets for training and evaluating computer vision algorithms that are to be deployed in the real world. While the visual fidelity of modern game engines has been significantly improved with technologies such as ray-tracing, a notable sim2real appearance gap between the synthetic and the real-world images still remains, which limits the utilization of synthetic datasets in real-world applications. In this letter, we investigate the ability of a state-of-the-art image generation and editing diffusion model (FLUX.2-4B Klein) to enhance the photorealism of synthetic datasets and compare its performance against a traditional image-to-image translation model (REGEN). Furthermore, we propose a hybrid approach that combines the strong geometry and material transformations of diffusion-based methods with the distribution-matching capabilities of image-to-image translation techniques. Through experiments, it is demonstrated that REGEN outperforms FLUX.2-4B Klein and that by combining both FLUX.2-4B Klein and REGEN models, better visual realism can be achieved compared to using each model individually, while maintaining semantic consistency. The code is available at: https://github.com/stefanos50/Hybrid-Sim2Real

Een hybride aanpak voor het dichten van de Sim2Real-uiterlijk-kloof in synthetische datasets gegenereerd door game-engines

A Hybrid Approach for Closing the Sim2real Appearance Gap in Game Engine Synthetic Datasets

Samenvatting

Support