Disponibilidade Prévia no Sim-to-Real Visual Industrial: Uma Revisão dos Regimes Guiados por CAD e sem CAD
Prior Availability in Industrial Visual Sim-to-Real: A Review of CAD-Guided and CAD-Unavailable Regimes
May 28, 2026
Autores: Chenxi Tao, Seung-Kyum Choi
cs.AI
Resumo
A simulação-para-real visual industrial é frequentemente descrita como a transferência de imagens sintéticas para imagens reais, mas a implantação industrial geralmente envolve uma incompatibilidade mais ampla entre as evidências disponíveis e as decisões necessárias. Um sistema pode ser construído a partir de renderizações CAD, observações RGB-D simuladas, imagens de referência normais, defeitos sintéticos, espaços de características pré-treinados ou prompts de linguagem, mas implantado sob diferentes sensores, iluminação, materiais, dispositivos de fixação, calibração, variação de produção e modos de defeito raros. Esta revisão reformula a simulação-para-real visual industrial como um problema de lacuna de domínio organizado pela disponibilidade de priori. Distinguimos configurações com CAD disponível, onde a geometria explícita do objeto pode suportar renderização, calibração, estimação de pose, segmentação e verificação geométrica em tempo de teste; configurações sem CAD disponível, onde a geometria é substituída por aparência de referência normal, distribuições de características, resíduos professor-aluno, suposições de anomalia sintética, características de base ou priores visão-linguagem; e configurações de priori de fronteira, onde modelos aproximados, gabaritos, vistas de referência ou correspondências semânticas preservam apenas parte do papel do CAD. Este enquadramento conecta a literatura de detecção baseada em CAD e estimação de pose 6D com a literatura de anomalia industrial e inspeção de superfície que geralmente são revisadas separadamente. Para tornar a taxonomia concreta, usamos âncoras empíricas nos conjuntos T-LESS/BOP, MVTec AD e VisA. As âncoras mostram que apenas a contagem de renderizações CAD não fecha a transferência; o design da distribuição de origem, a capacidade do detector e uma pequena calibração real podem ser mais importantes. Elas também mostram que o CAD em tempo de teste cria um canal de verificação distinto por meio da consistência de máscara, pose e profundidade, enquanto a inspeção sem CAD depende de normalidade calibrada e desvio de características. A revisão, portanto, argumenta contra um único ranking entre tarefas e, em vez disso, pergunta qual priori fundamenta a decisão de implantação.
English
Industrial visual sim-to-real is often described as transferring from synthetic images to real images, but industrial deployment usually involves a broader mismatch between available evidence and required decisions. A system may be built from CAD renderings, simulated RGB-D observations, normal reference images, synthetic defects, pretrained feature spaces, or language prompts, yet deployed under different sensors, lighting, materials, fixtures, calibration, production variation, and rare defect modes. This review reframes industrial visual sim-to-real as a domain-gap problem organized by prior availability. We distinguish CAD-available settings, where explicit object geometry can support rendering, calibration, pose estimation, segmentation, and test-time geometric verification; CAD-unavailable settings, where geometry is replaced by normal-reference appearance, feature distributions, teacher-student residuals, synthetic anomaly assumptions, foundation features, or vision-language priors; and boundary-prior settings, where approximate models, templates, reference views, or semantic correspondences preserve only part of the CAD role. This framing connects CAD-based detection and 6D pose-estimation literature with industrial anomaly and surface-inspection literature that is usually reviewed separately. To make the taxonomy concrete, we use empirical anchors on T-LESS/BOP, MVTec AD, and VisA. The anchors show that CAD render count alone does not close transfer; source-distribution design, detector capacity, and small real calibration can matter more. They also show that CAD at test time creates a distinct verification channel through mask, pose, and depth consistency, whereas CAD-unavailable inspection relies on calibrated normality and feature deviation. The review therefore argues against a single cross-task leaderboard and instead asks what prior grounds the deployment decision.