CM-EVS: Schaarse panoramische RGB-D-posegegevens voor volledige scènedekking

Samenvatting

Modern 3D-visueel leren is afhankelijk van waarnemingen die zijn gesampled uit metrische 3D-assets, maar bestaande scans, meshes, puntenwolken, simulaties en reconstructies bieden niet direct een schaarse, vergelijkbare en geometrie-consistente panoramische trainingsinterface. Dichte trajecten dupliceren nabijgelegen aanzichten, bronspecifieke renderingstrategieën leveren heterogene annotaties op, en schaarse heuristieken kunnen belangrijke regio's missen of diepte-inconsistente waarnemingen introduceren. We onderzoeken hoe we 3D-assets kunnen omzetten in schaarse panoramische RGB-D-pose-data die volledige scènedekking behouden met lage redundantie en controleerbare herkomst. We stellen COVER (Coverage-Oriented Viewpoint curation with ERP Range-depth warping) voor, een trainingsvrije ERP-aanzichtcurator die geometrie waargenomen vanuit geselecteerde aanzichten projecteert in kandidaat-ERP-probes, incrementele dekking scoort en dieptoconflicten bestraft. Onder begrensde proxyfout behoudt de hebzuchtige dekkingsproxy het standaard dekkingsachtige benaderingsgedrag tot op een additieve foutterm. Met COVER bouwen we CM-EVS (Coverage-curated Metric ERP View Set), een panoramische RGB-D-pose-dataset met 36.373 gecureerde ERP-frames uit 1.275 binnenscènes van Blender indoor, HM3D en ScanNet++, aangevuld met buitenscènespanorama's van TartanGround en OB3D die opnieuw zijn gecodeerd in hetzelfde schema. Elk frame biedt volbol-RGB, metrische diepte en gekalibreerde pose; door COVER geproduceerde binnenscèneframes bevatten stapsgewijze herkomstlogs. Met een mediaan van slechts 25 frames per binnenscène dekt CM-EVS alle 13 uniforme kamertypen, met behoud van compacte scènedekking. Experimenten tonen aan dat COVER de dekking-conflict-afweging verbetert, waardoor CM-EVS een schaarse, compacte en controleerbare RGB-D-pose-bron wordt voor geometrie-consistent panoramisch 3D-leren.

English

Modern 3D visual learning relies on observations sampled from metric 3D assets, yet existing scans, meshes, point clouds, simulations, and reconstructions do not directly provide a sparse, comparable, and geometry-consistent panoramic training interface. Dense trajectories duplicate nearby views, source-specific rendering policies yield heterogeneous annotations, and sparse heuristics may miss important regions or introduce depth-inconsistent observations. We study how to convert 3D assets into sparse panoramic RGB-D-pose data that preserves complete scene coverage with low redundancy and auditable provenance. We propose COVER (Coverage-Oriented Viewpoint curation with ERP Range-depth warping), a training-free ERP viewpoint curator that projects geometry observed from selected views into candidate ERP probes, scores incremental coverage, and penalizes depth conflicts. Under bounded proxy error, its greedy coverage proxy preserves the standard coverage-style approximation behavior up to an additive error term. Using COVER, we build CM-EVS (Coverage-curated Metric ERP View Set), a panoramic RGB-D-pose dataset with 36,373 curated ERP frames from 1,275 indoor scenes across Blender indoor, HM3D, and ScanNet++, complemented by outdoor panoramas from TartanGround and OB3D re-encoded into the same schema. Each frame provides full-sphere RGB, metric range depth, calibrated pose; COVER-produced indoor frames include per-step provenance logs. With a median of only 25 frames per indoor scene, CM-EVS covers all 13 unified room types while maintaining compact scene-level coverage. Experiments show that COVER improves the coverage-conflict trade-off, making CM-EVS a sparse, compact, and auditable RGB-D-pose resource for geometry-consistent panoramic 3D learning.