CM-EVS: Разреженные панорамные RGB-D-поза данные для полного покрытия сцены

Аннотация

Современное 3D-визуальное обучение опирается на наблюдения, полученные из метрических 3D-активов, однако существующие сканы, mesh-сетки, облака точек, симуляции и реконструкции не предоставляют напрямую разреженный, сопоставимый и геометрически согласованный панорамный обучающий интерфейс. Плотные траектории дублируют близлежащие обзоры, специфичные для источника политики рендеринга порождают гетерогенные аннотации, а разреженные эвристики могут пропускать важные области или вносить глубинно-несовместимые наблюдения. Мы исследуем, как преобразовать 3D-активы в разреженные панорамные данные RGB-D-pose, обеспечивающие полное покрытие сцены при низкой избыточности и поддающееся проверке происхождение. Мы предлагаем COVER (Coverage-Oriented Viewpoint curation with ERP Range-depth warping) — работающий без обучения куратор точек обзора на основе ERP, который проецирует геометрию, наблюдаемую из выбранных видов, в кандидатные ERP-пробы, оценивает инкрементальное покрытие и штрафует конфликты глубины. При ограниченной погрешности прокси-функции его жадная прокси-функция покрытия сохраняет стандартное аппроксимационное поведение типа покрытия с точностью до аддитивного члена ошибки. С помощью COVER мы создаем CM-EVS (Coverage-curated Metric ERP View Set) — панорамный набор данных RGB-D-pose, содержащий 36 373 курированных ERP-кадра из 1275 внутренних сцен из наборов Blender indoor, HM3D и ScanNet++, дополненных наружными панорамами из TartanGround и OB3D, перекодированными в ту же схему. Каждый кадр предоставляет полнообъемный RGB, метрическую глубину дальности, калиброванную позу; созданные с помощью COVER внутренние кадры включают журналы происхождения для каждого шага. При медиане всего 25 кадров на внутреннюю сцену CM-EVS охватывает все 13 унифицированных типов помещений, сохраняя компактное покрытие на уровне сцены. Эксперименты показывают, что COVER улучшает компромисс между покрытием и конфликтами, делая CM-EVS разреженным, компактным и проверяемым ресурсом RGB-D-pose для геометрически согласованного панорамного 3D-обучения.

English

Modern 3D visual learning relies on observations sampled from metric 3D assets, yet existing scans, meshes, point clouds, simulations, and reconstructions do not directly provide a sparse, comparable, and geometry-consistent panoramic training interface. Dense trajectories duplicate nearby views, source-specific rendering policies yield heterogeneous annotations, and sparse heuristics may miss important regions or introduce depth-inconsistent observations. We study how to convert 3D assets into sparse panoramic RGB-D-pose data that preserves complete scene coverage with low redundancy and auditable provenance. We propose COVER (Coverage-Oriented Viewpoint curation with ERP Range-depth warping), a training-free ERP viewpoint curator that projects geometry observed from selected views into candidate ERP probes, scores incremental coverage, and penalizes depth conflicts. Under bounded proxy error, its greedy coverage proxy preserves the standard coverage-style approximation behavior up to an additive error term. Using COVER, we build CM-EVS (Coverage-curated Metric ERP View Set), a panoramic RGB-D-pose dataset with 36,373 curated ERP frames from 1,275 indoor scenes across Blender indoor, HM3D, and ScanNet++, complemented by outdoor panoramas from TartanGround and OB3D re-encoded into the same schema. Each frame provides full-sphere RGB, metric range depth, calibrated pose; COVER-produced indoor frames include per-step provenance logs. With a median of only 25 frames per indoor scene, CM-EVS covers all 13 unified room types while maintaining compact scene-level coverage. Experiments show that COVER improves the coverage-conflict trade-off, making CM-EVS a sparse, compact, and auditable RGB-D-pose resource for geometry-consistent panoramic 3D learning.