CM-EVS : Données panoramiques RGB-D-Pose éparses pour une couverture complète de la scène

Résumé

L'apprentissage visuel 3D moderne repose sur des observations échantillonnées à partir d'actifs 3D métriques, mais les scans, maillages, nuages de points, simulations et reconstructions existants ne fournissent pas directement une interface d'entraînement panoramique clairsemée, comparable et géométriquement cohérente. Les trajectoires denses dupliquent les vues proches, les politiques de rendu spécifiques aux sources produisent des annotations hétérogènes, et des heuristiques éparses peuvent omettre des régions importantes ou introduire des observations incohérentes en profondeur. Nous étudions comment convertir des actifs 3D en données panoramiques RVB-D-pose clairsemées qui préservent une couverture complète de la scène avec une faible redondance et une provenance vérifiable. Nous proposons COVER (Curatage de points de vue orienté couverture avec déformation de profondeur de plage ERP), un curateur de points de vue ERP sans entraînement qui projette la géométrie observée depuis des vues sélectionnées dans des sondes ERP candidates, score la couverture incrémentale et pénalise les conflits de profondeur. Sous une erreur de proxy bornée, son proxy de couverture glouton préserve le comportement d'approximation standard de type couverture jusqu'à un terme d'erreur additif. À l'aide de COVER, nous construisons CM-EVS (Ensemble de Vues ERP Métriques Curatées pour la Couverture), un jeu de données panoramique RVB-D-pose comprenant 36 373 images ERP curatées issues de 1 275 scènes intérieures couvrant Blender indoor, HM3D et ScanNet++, complété par des panoramas extérieurs de TartanGround et OB3D ré-encodés dans le même schéma. Chaque image fournit une sphère complète RVB, une profondeur métrique de plage, une pose calibrée ; les images intérieures produites par COVER incluent des journaux de provenance par étape. Avec une médiane de seulement 25 images par scène intérieure, CM-EVS couvre les 13 types de pièces unifiés tout en maintenant une couverture compacte au niveau de la scène. Les expériences montrent que COVER améliore le compromis couverture-conflit, faisant de CM-EVS une ressource RVB-D-pose clairsemée, compacte et vérifiable pour l'apprentissage 3D panoramique géométriquement cohérent.

English

Modern 3D visual learning relies on observations sampled from metric 3D assets, yet existing scans, meshes, point clouds, simulations, and reconstructions do not directly provide a sparse, comparable, and geometry-consistent panoramic training interface. Dense trajectories duplicate nearby views, source-specific rendering policies yield heterogeneous annotations, and sparse heuristics may miss important regions or introduce depth-inconsistent observations. We study how to convert 3D assets into sparse panoramic RGB-D-pose data that preserves complete scene coverage with low redundancy and auditable provenance. We propose COVER (Coverage-Oriented Viewpoint curation with ERP Range-depth warping), a training-free ERP viewpoint curator that projects geometry observed from selected views into candidate ERP probes, scores incremental coverage, and penalizes depth conflicts. Under bounded proxy error, its greedy coverage proxy preserves the standard coverage-style approximation behavior up to an additive error term. Using COVER, we build CM-EVS (Coverage-curated Metric ERP View Set), a panoramic RGB-D-pose dataset with 36,373 curated ERP frames from 1,275 indoor scenes across Blender indoor, HM3D, and ScanNet++, complemented by outdoor panoramas from TartanGround and OB3D re-encoded into the same schema. Each frame provides full-sphere RGB, metric range depth, calibrated pose; COVER-produced indoor frames include per-step provenance logs. With a median of only 25 frames per indoor scene, CM-EVS covers all 13 unified room types while maintaining compact scene-level coverage. Experiments show that COVER improves the coverage-conflict trade-off, making CM-EVS a sparse, compact, and auditable RGB-D-pose resource for geometry-consistent panoramic 3D learning.