CM-EVS: Spärliche panoramische RGB-D-Posen-Daten für vollständige Szenenabdeckung

Zusammenfassung

Moderne 3D-visuelles Lernen basiert auf Beobachtungen, die aus metrischen 3D-Assets stammen, jedoch bieten bestehende Scans, Meshes, Punktwolken, Simulationen und Rekonstruktionen keine direkte spärliche, vergleichbare und geometriekonsistente panoramische Trainingsschnittstelle. Dichte Trajektorien duplizieren nahegelegene Ansichten, quellspezifische Rendering-Richtlinien führen zu heterogenen Annotationen, und spärliche Heuristiken können wichtige Regionen übersehen oder tiefeninkonsistente Beobachtungen einführen. Wir untersuchen, wie man 3D-Assets in spärliche panoramische RGB-D-Pose-Daten umwandelt, die eine vollständige Szenenabdeckung mit geringer Redundanz und nachvollziehbarer Herkunft erhalten. Wir schlagen COVER (Coverage-Oriented Viewpoint curation with ERP Range-depth warping) vor, einen trainingsfreien ERP-Blickpunkt-Kurator, der die Geometrie ausgewählter Ansichten in Kandidaten-ERP-Proben projiziert, die inkrementelle Abdeckung bewertet und Tiefenkonflikte bestraft. Unter begrenztem Proxy-Fehler bewahrt sein gieriger Abdeckungs-Proxy das standardmäßige abdeckungsorientierte Approximationsverhalten bis zu einem additiven Fehlerterm. Mit COVER erstellen wir CM-EVS (Coverage-curated Metric ERP View Set), einen panoramischen RGB-D-Pose-Datensatz mit 36.373 kuratierten ERP-Frames aus 1.275 Innenszenen aus Blender indoor, HM3D und ScanNet++, ergänzt durch Außenpanoramen von TartanGround und OB3D, die in dasselbe Schema umkodiert wurden. Jeder Frame bietet Vollkugel-RGB, metrische Reichweitentiefe, kalibrierte Pose; von COVER erzeugte Innenframes enthalten schrittweise Herkunftsprotokolle. Mit einem Median von nur 25 Frames pro Innenszene deckt CM-EVS alle 13 einheitlichen Raumtypen ab, während es eine kompakte Szenenabdeckung beibehält. Experimente zeigen, dass COVER den Abdeckungs-Konflikt-Kompromiss verbessert, was CM-EVS zu einer spärlichen, kompakten und nachvollziehbaren RGB-D-Pose-Ressource für geometriekonsistentes panoramisches 3D-Lernen macht.

English

Modern 3D visual learning relies on observations sampled from metric 3D assets, yet existing scans, meshes, point clouds, simulations, and reconstructions do not directly provide a sparse, comparable, and geometry-consistent panoramic training interface. Dense trajectories duplicate nearby views, source-specific rendering policies yield heterogeneous annotations, and sparse heuristics may miss important regions or introduce depth-inconsistent observations. We study how to convert 3D assets into sparse panoramic RGB-D-pose data that preserves complete scene coverage with low redundancy and auditable provenance. We propose COVER (Coverage-Oriented Viewpoint curation with ERP Range-depth warping), a training-free ERP viewpoint curator that projects geometry observed from selected views into candidate ERP probes, scores incremental coverage, and penalizes depth conflicts. Under bounded proxy error, its greedy coverage proxy preserves the standard coverage-style approximation behavior up to an additive error term. Using COVER, we build CM-EVS (Coverage-curated Metric ERP View Set), a panoramic RGB-D-pose dataset with 36,373 curated ERP frames from 1,275 indoor scenes across Blender indoor, HM3D, and ScanNet++, complemented by outdoor panoramas from TartanGround and OB3D re-encoded into the same schema. Each frame provides full-sphere RGB, metric range depth, calibrated pose; COVER-produced indoor frames include per-step provenance logs. With a median of only 25 frames per indoor scene, CM-EVS covers all 13 unified room types while maintaining compact scene-level coverage. Experiments show that COVER improves the coverage-conflict trade-off, making CM-EVS a sparse, compact, and auditable RGB-D-pose resource for geometry-consistent panoramic 3D learning.