ChatPaper.aiChatPaper

Disponibilité préalable dans le Sim-to-Real visuel industriel : une revue des régimes guidés par CAO et sans CAO disponible

Prior Availability in Industrial Visual Sim-to-Real: A Review of CAD-Guided and CAD-Unavailable Regimes

May 28, 2026
Auteurs: Chenxi Tao, Seung-Kyum Choi
cs.AI

Résumé

La simulation vers le réel (sim-to-real) en vision industrielle est souvent décrite comme un transfert d’images synthétiques vers des images réelles, mais le déploiement industriel implique généralement un décalage plus large entre les preuves disponibles et les décisions requises. Un système peut être construit à partir de rendus CAO, d’observations RVB-D simulées, d’images de référence normales, de défauts synthétiques, d’espaces de caractéristiques pré-entraînés ou de prompts langagiers, tout en étant déployé sous différents capteurs, éclairages, matériaux, montages, calibrages, variations de production et modes de défauts rares. Cette revue reformule le sim-to-real visuel industriel comme un problème d’écart de domaine (domain-gap) organisé selon la disponibilité préalable. Nous distinguons les configurations avec CAO disponible, où la géométrie explicite de l’objet peut soutenir le rendu, le calibrage, l’estimation de pose, la segmentation, et la vérification géométrique en temps de test ; les configurations sans CAO, où la géométrie est remplacée par l’apparence de référence normale, les distributions de caractéristiques, les résidus enseignant-élève, les hypothèses de défauts synthétiques, les caractéristiques fondamentales, ou les priors vision-langage ; et les configurations avec prior de contour, où des modèles approximatifs, des gabarits, des vues de référence, ou des correspondances sémantiques ne préservent qu’une partie du rôle de la CAO. Ce cadrage relie la littérature sur la détection et l’estimation de pose 6D basée CAO avec celle sur l’inspection industrielle des anomalies et des surfaces, habituellement examinée séparément. Pour rendre la taxonomie concrète, nous utilisons des ancrages empiriques sur T-LESS/BOP, MVTec AD et VisA. Ces ancrages montrent que le nombre de rendus CAO seul ne suffit pas à combler le transfert ; la conception de la distribution source, la capacité du détecteur et un petit calibrage réel peuvent être plus importants. Ils montrent également que la CAO en temps de test crée un canal de vérification distinct via la cohérence du masque, de la pose et de la profondeur, tandis que l’inspection sans CAO repose sur une normalité calibrée et un écart de caractéristique. La revue plaide donc contre un classement unique entre tâches et demande plutôt quel fondement (prior) sous-tend la décision de déploiement.
English
Industrial visual sim-to-real is often described as transferring from synthetic images to real images, but industrial deployment usually involves a broader mismatch between available evidence and required decisions. A system may be built from CAD renderings, simulated RGB-D observations, normal reference images, synthetic defects, pretrained feature spaces, or language prompts, yet deployed under different sensors, lighting, materials, fixtures, calibration, production variation, and rare defect modes. This review reframes industrial visual sim-to-real as a domain-gap problem organized by prior availability. We distinguish CAD-available settings, where explicit object geometry can support rendering, calibration, pose estimation, segmentation, and test-time geometric verification; CAD-unavailable settings, where geometry is replaced by normal-reference appearance, feature distributions, teacher-student residuals, synthetic anomaly assumptions, foundation features, or vision-language priors; and boundary-prior settings, where approximate models, templates, reference views, or semantic correspondences preserve only part of the CAD role. This framing connects CAD-based detection and 6D pose-estimation literature with industrial anomaly and surface-inspection literature that is usually reviewed separately. To make the taxonomy concrete, we use empirical anchors on T-LESS/BOP, MVTec AD, and VisA. The anchors show that CAD render count alone does not close transfer; source-distribution design, detector capacity, and small real calibration can matter more. They also show that CAD at test time creates a distinct verification channel through mask, pose, and depth consistency, whereas CAD-unavailable inspection relies on calibrated normality and feature deviation. The review therefore argues against a single cross-task leaderboard and instead asks what prior grounds the deployment decision.