Voorkennisbeschikbaarheid in industriële visuele sim-to-real: een overzicht van CAD-gestuurde en CAD-onbeschikbare regimes

Samenvatting

Industrieel visueel sim-to-real wordt vaak beschreven als de overdracht van synthetische beelden naar echte beelden, maar industriële implementatie omvat doorgaans een bredere mismatch tussen beschikbare bewijzen en vereiste beslissingen. Een systeem kan worden opgebouwd uit CAD-renders, gesimuleerde RGB-D-waarnemingen, normale referentiebeelden, synthetische defecten, voorgetrainde kenmerkruimtes of taalaanwijzingen, maar wordt ingezet onder andere sensoren, belichting, materialen, armaturen, kalibratie, productievariatie en zeldzame defectmodi. Deze review herkadert industrieel visueel sim-to-real als een domeinkloofprobleem, geordend naar beschikbaarheid van voorkennis. We onderscheiden CAD-beschikbare instellingen, waar expliciete objectgeometrie rendering, kalibratie, positie-schatting, segmentatie en geometrische verificatie tijdens testen kan ondersteunen; CAD-niet-beschikbare instellingen, waar geometrie wordt vervangen door normaal-referentie-uiterlijk, kenmerkdistributies, teacher-student-residuen, synthetische anomalie-aannames, funderingskenmerken of visie-taal-priors; en grens-prior-instellingen, waar benaderende modellen, sjablonen, referentieaanzichten of semantische correspondenties slechts een deel van de CAD-rol behouden. Deze inkadering verbindt de literatuur over CAD-gebaseerde detectie en 6D-positieschatting met de literatuur over industriële anomalie- en oppervlakte-inspectie, die doorgaans afzonderlijk wordt besproken. Om de taxonomie concreet te maken, gebruiken we empirische ankers op T-LESS/BOP, MVTec AD en VisA. De ankers tonen aan dat alleen het aantal CAD-renders de overdracht niet dicht; de ontwerp van de brondistributie, de detectiecapaciteit en een kleine echte kalibratie kunnen belangrijker zijn. Ze tonen ook aan dat CAD tijdens tests een apart verificatiekanaal creëert via masker-, positie- en diepteconsistentie, terwijl CAD-niet-beschikbare inspectie afhankelijk is van gekalibreerde normaliteit en kenmerkafwijking. De review pleit daarom tegen een enkel cross-task-klassement en vraagt in plaats daarvan welke voorkennis de implementatiebeslissing onderbouwt.

English

Industrial visual sim-to-real is often described as transferring from synthetic images to real images, but industrial deployment usually involves a broader mismatch between available evidence and required decisions. A system may be built from CAD renderings, simulated RGB-D observations, normal reference images, synthetic defects, pretrained feature spaces, or language prompts, yet deployed under different sensors, lighting, materials, fixtures, calibration, production variation, and rare defect modes. This review reframes industrial visual sim-to-real as a domain-gap problem organized by prior availability. We distinguish CAD-available settings, where explicit object geometry can support rendering, calibration, pose estimation, segmentation, and test-time geometric verification; CAD-unavailable settings, where geometry is replaced by normal-reference appearance, feature distributions, teacher-student residuals, synthetic anomaly assumptions, foundation features, or vision-language priors; and boundary-prior settings, where approximate models, templates, reference views, or semantic correspondences preserve only part of the CAD role. This framing connects CAD-based detection and 6D pose-estimation literature with industrial anomaly and surface-inspection literature that is usually reviewed separately. To make the taxonomy concrete, we use empirical anchors on T-LESS/BOP, MVTec AD, and VisA. The anchors show that CAD render count alone does not close transfer; source-distribution design, detector capacity, and small real calibration can matter more. They also show that CAD at test time creates a distinct verification channel through mask, pose, and depth consistency, whereas CAD-unavailable inspection relies on calibrated normality and feature deviation. The review therefore argues against a single cross-task leaderboard and instead asks what prior grounds the deployment decision.