산업용 시각적 Sim-to-Real에서의 사전 가용성: CAD 기반 및 CAD 비가용 영역에 대한 리뷰
Prior Availability in Industrial Visual Sim-to-Real: A Review of CAD-Guided and CAD-Unavailable Regimes
May 28, 2026
저자: Chenxi Tao, Seung-Kyum Choi
cs.AI
초록
산업용 시각적 sim-to-real은 종종 합성 이미지에서 실제 이미지로의 전이로 설명되지만, 실제 산업 배포는 일반적으로 가용한 증거와 필요한 결정 사이의 더 광범위한 불일치를 수반한다. 시스템은 CAD 렌더링, 시뮬레이션된 RGB-D 관측, 정상 참조 이미지, 합성 결함, 사전 훈련된 특징 공간 또는 언어 프롬프트로 구축될 수 있지만, 다른 센서, 조명, 재료, 고정 장치, 캘리브레이션, 생산 변동 및 드문 결함 모드 하에서 배포된다. 본 리뷰는 산업용 시각적 sim-to-real을 사전 가용성에 따라 구성된 도메인 갭 문제로 재구성한다. 우리는 명시적 객체 형상이 렌더링, 캘리브레이션, 자세 추정, 분할 및 테스트 시 기하학적 검증을 지원할 수 있는 CAD 가용 설정, 형상이 정상 참조 외관, 특징 분포, 교사-학생 잔차, 합성 이상 가정, 기반 특징 또는 시각-언어 사전으로 대체되는 CAD 비가용 설정, 그리고 근사 모델, 템플릿, 참조 뷰 또는 의미적 대응이 CAD 역할의 일부만 보존하는 경계 사전 설정을 구분한다. 이 프레임워크는 보통 별도로 리뷰되는 CAD 기반 검출 및 6D 자세 추정 문헌과 산업 이상 및 표면 검사 문헌을 연결한다. 분류 체계를 구체화하기 위해 T-LESS/BOP, MVTec AD 및 VisA에 대한 경험적 기준점을 사용한다. 기준점들은 CAD 렌더링 수만으로는 전이가 완료되지 않으며, 소스 분포 설계, 검출기 용량 및 소량의 실제 캘리브레이션이 더 중요할 수 있음을 보여준다. 또한 CAD가 테스트 시 마스크, 자세 및 깊이 일관성을 통해 별도의 검증 채널을 생성하는 반면, CAD 비가용 검사는 캘리브레이션된 정상성과 특징 편차에 의존함을 보여준다. 따라서 본 리뷰는 단일 교차 작업 리더보드에 반대하며, 대신 어떤 사전 정보가 배포 결정의 근거가 되는지 질문한다.
English
Industrial visual sim-to-real is often described as transferring from synthetic images to real images, but industrial deployment usually involves a broader mismatch between available evidence and required decisions. A system may be built from CAD renderings, simulated RGB-D observations, normal reference images, synthetic defects, pretrained feature spaces, or language prompts, yet deployed under different sensors, lighting, materials, fixtures, calibration, production variation, and rare defect modes. This review reframes industrial visual sim-to-real as a domain-gap problem organized by prior availability. We distinguish CAD-available settings, where explicit object geometry can support rendering, calibration, pose estimation, segmentation, and test-time geometric verification; CAD-unavailable settings, where geometry is replaced by normal-reference appearance, feature distributions, teacher-student residuals, synthetic anomaly assumptions, foundation features, or vision-language priors; and boundary-prior settings, where approximate models, templates, reference views, or semantic correspondences preserve only part of the CAD role. This framing connects CAD-based detection and 6D pose-estimation literature with industrial anomaly and surface-inspection literature that is usually reviewed separately. To make the taxonomy concrete, we use empirical anchors on T-LESS/BOP, MVTec AD, and VisA. The anchors show that CAD render count alone does not close transfer; source-distribution design, detector capacity, and small real calibration can matter more. They also show that CAD at test time creates a distinct verification channel through mask, pose, and depth consistency, whereas CAD-unavailable inspection relies on calibrated normality and feature deviation. The review therefore argues against a single cross-task leaderboard and instead asks what prior grounds the deployment decision.