CM-EVS: Datos Panorámicos RGB-D-Pose Dispersos para Cobertura Completa de la Escena

Resumen

El aprendizaje visual 3D moderno se basa en observaciones muestreadas a partir de activos 3D métricos, pero los escaneos, mallas, nubes de puntos, simulaciones y reconstrucciones existentes no proporcionan directamente una interfaz de entrenamiento panorámica escasa, comparable y geométricamente coherente. Las trayectorias densas duplican vistas cercanas, las políticas de renderizado específicas de cada fuente generan anotaciones heterogéneas, y las heurísticas dispersas pueden pasar por alto regiones importantes o introducir observaciones inconsistentes en profundidad. Estudiamos cómo convertir activos 3D en datos RGB-D-pose panorámicos y dispersos que preserven una cobertura completa de la escena con baja redundancia y trazabilidad auditada. Proponemos COVER (Selección de Puntos de Vista Orientada a Cobertura mediante Distorsión de Rango de Profundidad ERP), un curador de puntos de vista ERP sin entrenamiento que proyecta la geometría observada desde vistas seleccionadas en sondas ERP candidatas, puntúa la cobertura incremental y penaliza los conflictos de profundidad. Bajo un error de aproximación acotado, su proxy de cobertura codicioso preserva el comportamiento estándar de aproximación tipo cobertura hasta un término de error aditivo. Utilizando COVER, construimos CM-EVS (Conjunto de Vistas ERP Métricas Curadas por Cobertura), un conjunto de datos RGB-D-pose panorámico con 36,373 fotogramas ERP curados de 1,275 escenas interiores de Blender indoor, HM3D y ScanNet++, complementado con panorámicas exteriores de TartanGround y OB3D recodificadas en el mismo esquema. Cada fotograma proporciona RGB de esfera completa, profundidad de rango métrica y pose calibrada; los fotogramas interiores generados por COVER incluyen registros de proveniencia por paso. Con una mediana de solo 25 fotogramas por escena interior, CM-EVS cubre los 13 tipos de habitaciones unificados, manteniendo una cobertura compacta a nivel de escena. Los experimentos muestran que COVER mejora el equilibrio entre cobertura y conflicto, convirtiendo a CM-EVS en un recurso RGB-D-pose escaso, compacto y trazable para el aprendizaje panorámico 3D con coherencia geométrica.

English

Modern 3D visual learning relies on observations sampled from metric 3D assets, yet existing scans, meshes, point clouds, simulations, and reconstructions do not directly provide a sparse, comparable, and geometry-consistent panoramic training interface. Dense trajectories duplicate nearby views, source-specific rendering policies yield heterogeneous annotations, and sparse heuristics may miss important regions or introduce depth-inconsistent observations. We study how to convert 3D assets into sparse panoramic RGB-D-pose data that preserves complete scene coverage with low redundancy and auditable provenance. We propose COVER (Coverage-Oriented Viewpoint curation with ERP Range-depth warping), a training-free ERP viewpoint curator that projects geometry observed from selected views into candidate ERP probes, scores incremental coverage, and penalizes depth conflicts. Under bounded proxy error, its greedy coverage proxy preserves the standard coverage-style approximation behavior up to an additive error term. Using COVER, we build CM-EVS (Coverage-curated Metric ERP View Set), a panoramic RGB-D-pose dataset with 36,373 curated ERP frames from 1,275 indoor scenes across Blender indoor, HM3D, and ScanNet++, complemented by outdoor panoramas from TartanGround and OB3D re-encoded into the same schema. Each frame provides full-sphere RGB, metric range depth, calibrated pose; COVER-produced indoor frames include per-step provenance logs. With a median of only 25 frames per indoor scene, CM-EVS covers all 13 unified room types while maintaining compact scene-level coverage. Experiments show that COVER improves the coverage-conflict trade-off, making CM-EVS a sparse, compact, and auditable RGB-D-pose resource for geometry-consistent panoramic 3D learning.