CM-EVS: Dados Esparsos Panorâmicos RGB-D-Pose para Cobertura Completa da Cena

Resumo

A aprendizagem visual 3D moderna depende de observações amostradas de ativos 3D métricos, no entanto, digitalizações, malhas, nuvens de pontos, simulações e reconstruções existentes não fornecem diretamente uma interface de treinamento panorâmica esparsa, comparável e geometricamente consistente. Trajetórias densas duplicam vistas próximas, políticas de renderização específicas de cada fonte produzem anotações heterogêneas, e heurísticas esparsas podem perder regiões importantes ou introduzir observações inconsistentes em profundidade. Estudamos como converter ativos 3D em dados panorâmicos RGB-D-pose esparsos que preservam cobertura completa da cena com baixa redundância e proveniência auditável. Propomos o COVER (Cobertura-Orientada para Curadoria de Pontos de Vista com Warping de Profundidade de Alcance ERP), um curador de pontos de vista ERP livre de treinamento que projeta a geometria observada a partir de vistas selecionadas em sondas ERP candidatas, pontua a cobertura incremental e penaliza conflitos de profundidade. Sob erro de proxy limitado, seu proxy de cobertura guloso preserva o comportamento padrão de aproximação do tipo cobertura até um termo de erro aditivo. Utilizando o COVER, construímos o CM-EVS (Conjunto de Vistas ERP Métricas Curadas por Cobertura), um conjunto de dados panorâmico RGB-D-pose com 36.373 quadros ERP curados de 1.275 cenas internas em Blender indoor, HM3D e ScanNet++, complementado por panoramas externos do TartanGround e OB3D recodificados no mesmo esquema. Cada quadro fornece RGB de esfera completa, profundidade métrica de alcance e pose calibrada; os quadros internos produzidos pelo COVER incluem registros de proveniência por etapa. Com uma mediana de apenas 25 quadros por cena interna, o CM-EVS cobre todos os 13 tipos de cômodos unificados, mantendo cobertura compacta no nível da cena. Experimentos mostram que o COVER melhora o trade-off cobertura-conflito, tornando o CM-EVS um recurso RGB-D-pose esparso, compacto e auditável para aprendizagem 3D panorâmica geometricamente consistente.

English

Modern 3D visual learning relies on observations sampled from metric 3D assets, yet existing scans, meshes, point clouds, simulations, and reconstructions do not directly provide a sparse, comparable, and geometry-consistent panoramic training interface. Dense trajectories duplicate nearby views, source-specific rendering policies yield heterogeneous annotations, and sparse heuristics may miss important regions or introduce depth-inconsistent observations. We study how to convert 3D assets into sparse panoramic RGB-D-pose data that preserves complete scene coverage with low redundancy and auditable provenance. We propose COVER (Coverage-Oriented Viewpoint curation with ERP Range-depth warping), a training-free ERP viewpoint curator that projects geometry observed from selected views into candidate ERP probes, scores incremental coverage, and penalizes depth conflicts. Under bounded proxy error, its greedy coverage proxy preserves the standard coverage-style approximation behavior up to an additive error term. Using COVER, we build CM-EVS (Coverage-curated Metric ERP View Set), a panoramic RGB-D-pose dataset with 36,373 curated ERP frames from 1,275 indoor scenes across Blender indoor, HM3D, and ScanNet++, complemented by outdoor panoramas from TartanGround and OB3D re-encoded into the same schema. Each frame provides full-sphere RGB, metric range depth, calibrated pose; COVER-produced indoor frames include per-step provenance logs. With a median of only 25 frames per indoor scene, CM-EVS covers all 13 unified room types while maintaining compact scene-level coverage. Experiments show that COVER improves the coverage-conflict trade-off, making CM-EVS a sparse, compact, and auditable RGB-D-pose resource for geometry-consistent panoramic 3D learning.