Априорная доступность в промышленном визуальном переносе из симуляции в реальность: обзор режимов с использованием CAD и без CAD

Аннотация

Индустриальный визуальный перенос из симуляции в реальность (sim-to-real) часто описывается как переход от синтетических изображений к реальным, однако промышленное развёртывание обычно включает более широкое несоответствие между доступными данными и требуемыми решениями. Система может быть построена на основе CAD-рендерингов, симулированных RGB-наблюдений с глубиной, эталонных изображений нормы, синтетических дефектов, предобученных пространств признаков или языковых подсказок, но развёрнута в условиях других сенсоров, освещения, материалов, креплений, калибровки, производственной вариативности и редких типов дефектов. Данный обзор переформулирует индустриальный визуальный sim-to-real как проблему разрыва между доменами, организованную по доступности априорных данных. Мы различаем настройки с доступными CAD-моделями (CAD-available), где явная геометрия объекта может поддерживать рендеринг, калибровку, оценку позы, сегментацию и геометрическую верификацию во время тестирования; настройки без CAD (CAD-unavailable), где геометрия заменяется эталонным внешним видом нормы, распределениями признаков, остатками учитель-ученик, предположениями о синтетических аномалиях, базовыми признаками или априорными данными из зрения и языка; и настройки с граничными априорными данными (boundary-prior), где приближенные модели, шаблоны, эталонные виды или семантические соответствия сохраняют лишь часть роли CAD. Такая формулировка связывает литературу по CAD-основанному обнаружению и оценке 6D-позы с литературой по промышленному анализу аномалий и контролю поверхности, которые обычно рассматриваются отдельно. Чтобы сделать таксономию конкретной, мы используем эмпирические ориентиры на наборах данных T-LESS/BOP, MVTec AD и VisA. Ориентиры показывают, что одно лишь количество CAD-рендеров не устраняет разрыв при переносе; дизайн исходного распределения, ёмкость детектора и небольшая реальная калибровка могут иметь большее значение. Они также показывают, что использование CAD во время тестирования создаёт отдельный канал верификации через согласованность маски, позы и глубины, в то время как контроль без CAD опирается на калиброванную нормальность и отклонение признаков. Поэтому обзор выступает против единой межзадачной таблицы лидеров и вместо этого ставит вопрос о том, какие априорные данные обосновывают решение о развёртывании.

English

Industrial visual sim-to-real is often described as transferring from synthetic images to real images, but industrial deployment usually involves a broader mismatch between available evidence and required decisions. A system may be built from CAD renderings, simulated RGB-D observations, normal reference images, synthetic defects, pretrained feature spaces, or language prompts, yet deployed under different sensors, lighting, materials, fixtures, calibration, production variation, and rare defect modes. This review reframes industrial visual sim-to-real as a domain-gap problem organized by prior availability. We distinguish CAD-available settings, where explicit object geometry can support rendering, calibration, pose estimation, segmentation, and test-time geometric verification; CAD-unavailable settings, where geometry is replaced by normal-reference appearance, feature distributions, teacher-student residuals, synthetic anomaly assumptions, foundation features, or vision-language priors; and boundary-prior settings, where approximate models, templates, reference views, or semantic correspondences preserve only part of the CAD role. This framing connects CAD-based detection and 6D pose-estimation literature with industrial anomaly and surface-inspection literature that is usually reviewed separately. To make the taxonomy concrete, we use empirical anchors on T-LESS/BOP, MVTec AD, and VisA. The anchors show that CAD render count alone does not close transfer; source-distribution design, detector capacity, and small real calibration can matter more. They also show that CAD at test time creates a distinct verification channel through mask, pose, and depth consistency, whereas CAD-unavailable inspection relies on calibrated normality and feature deviation. The review therefore argues against a single cross-task leaderboard and instead asks what prior grounds the deployment decision.