Verfügbarkeit von Vorkenntnissen im industriellen visuellen Sim-to-Real: Ein Überblick über CAD-gestützte und CAD-unverfügbare Regime

Zusammenfassung

Industrielles visuelles Sim-to-Real wird oft als Übertragung von synthetischen Bildern auf reale Bilder beschrieben, jedoch umfasst der industrielle Einsatz meist eine umfassendere Diskrepanz zwischen verfügbaren Evidenzen und erforderlichen Entscheidungen. Ein System kann aus CAD-Renderings, simulierten RGB-D-Beobachtungen, Normalreferenzbildern, synthetischen Defekten, vortrainierten Merkmalsräumen oder Sprachprompts aufgebaut sein, wird jedoch unter anderen Sensoren, Beleuchtung, Materialien, Vorrichtungen, Kalibrierung, Produktionsvariation und seltenen Defektmodi eingesetzt. Diese Übersichtsarbeit fasst industrielles visuelles Sim-to-Real als ein Domänenlückenproblem neu, das nach der Verfügbarkeit von Vorwissen geordnet ist. Wir unterscheiden CAD-verfügbare Umgebungen, in denen explizite Objektgeometrie Rendering, Kalibrierung, Posenschätzung, Segmentierung und geometrische Verifikation zur Testzeit unterstützen kann; CAD-nicht-verfügbare Umgebungen, in denen die Geometrie durch Normalreferenz-Erscheinungsbild, Merkmalsverteilungen, Lehrer-Schüler-Residuen, synthetische Anomalieannahmen, Foundation-Features oder Vision-Language-Priors ersetzt wird; und Boundary-Prior-Umgebungen, in denen approximative Modelle, Vorlagen, Referenzansichten oder semantische Korrespondenzen nur einen Teil der CAD-Rolle bewahren. Diese Einordnung verbindet die Literatur zur CAD-basierten Detektion und 6D-Posenschätzung mit der industriellen Anomalie- und Oberflächeninspektionsliteratur, die üblicherweise getrennt betrachtet wird. Um die Taxonomie konkret zu machen, verwenden wir empirische Ankerpunkte auf T-LESS/BOP, MVTec AD und VisA. Die Ankerpunkte zeigen, dass die Anzahl der CAD-Renderings allein den Transfer nicht schließt; das Design der Quellverteilung, die Detektorkapazität und eine kleine reale Kalibrierung können wichtiger sein. Sie zeigen auch, dass CAD zur Testzeit einen eigenen Verifikationskanal durch Masken-, Posen- und Tiefenkonsistenz schafft, während die CAD-nicht-verfügbare Inspektion auf kalibrierter Normalität und Merkmalsabweichung beruht. Die Übersichtsarbeit argumentiert daher gegen eine einzige, aufgabenübergreifende Bestenliste und fragt stattdessen, welches Vorwissen der Einsatzentscheidung zugrunde liegt.

English

Industrial visual sim-to-real is often described as transferring from synthetic images to real images, but industrial deployment usually involves a broader mismatch between available evidence and required decisions. A system may be built from CAD renderings, simulated RGB-D observations, normal reference images, synthetic defects, pretrained feature spaces, or language prompts, yet deployed under different sensors, lighting, materials, fixtures, calibration, production variation, and rare defect modes. This review reframes industrial visual sim-to-real as a domain-gap problem organized by prior availability. We distinguish CAD-available settings, where explicit object geometry can support rendering, calibration, pose estimation, segmentation, and test-time geometric verification; CAD-unavailable settings, where geometry is replaced by normal-reference appearance, feature distributions, teacher-student residuals, synthetic anomaly assumptions, foundation features, or vision-language priors; and boundary-prior settings, where approximate models, templates, reference views, or semantic correspondences preserve only part of the CAD role. This framing connects CAD-based detection and 6D pose-estimation literature with industrial anomaly and surface-inspection literature that is usually reviewed separately. To make the taxonomy concrete, we use empirical anchors on T-LESS/BOP, MVTec AD, and VisA. The anchors show that CAD render count alone does not close transfer; source-distribution design, detector capacity, and small real calibration can matter more. They also show that CAD at test time creates a distinct verification channel through mask, pose, and depth consistency, whereas CAD-unavailable inspection relies on calibrated normality and feature deviation. The review therefore argues against a single cross-task leaderboard and instead asks what prior grounds the deployment decision.