Um Guia Prático de Visão 3D: Dados, Paradigmas de Aprendizagem e Aplicação

Resumo

A visão 3D evoluiu rapidamente, impulsionada por representações de dados, paradigmas de aprendizado e estratégias de modelagem cada vez mais diversos. No entanto, o campo permanece fragmentado entre representações e benchmarks, dificultando o desenvolvimento de perspectivas unificadas sobre eficiência, fidelidade e escalabilidade. Este trabalho apresenta uma taxonomia centrada em dados para a visão 3D, conectando representações geométricas, conjuntos de dados, estruturas de aprendizado e aplicações em um único mapa conceitual. Começamos analisando as principais representações estruturais de dados 3D — nuvens de pontos, malhas, voxels e Gaussianos 3D —, juntamente com seus pipelines de aquisição. Em seguida, examinamos como o design de conjuntos de dados, a construção de benchmarks e os regimes de supervisão moldam avanços recentes, abrangendo aprendizado 3D supervisionado por 2D, representações neurais implícitas e modelagem de mundo 4D. Por meio dessa lente integrativa, esclarecemos as relações entre representações, paradigmas de aprendizado e tarefas subsequentes em reconstrução, geração e modelagem de vídeo, oferecendo uma visão consolidada das tendências emergentes rumo ao equilíbrio entre eficiência e fidelidade e à fundamentação geométrica multimodal.

English

3D vision has rapidly evolved, driven by increasingly diverse data representations, learning paradigms, and modeling strategies. Yet the field remains fragmented across representations and benchmarks, making it difficult to develop unified perspectives on efficiency, fidelity, and scalability. This work provides a data-centric taxonomy of 3D vision that connects geometric representations, datasets, learning frameworks, and applications within a single conceptual map. We begin by analysing the principal structural representations of 3D data--point clouds, meshes, voxels, and 3D Gaussians--along with their acquisition pipelines. We then examine how dataset design, benchmark construction, and supervision regimes shape recent advances, spanning 2D-supervised 3D learning, implicit neural representations, and 4D world modeling. Through this integrative lens, we clarify the relationships among representations, learning paradigms, and downstream tasks in reconstruction, generation, and video modeling, offering a consolidated view of emerging trends toward balancing efficiency and fidelity and toward multimodal geometric grounding.