Modelagem 3D de Cenas por Alimentação Direta: Uma Perspectiva Orientada a Problemas

Resumo

A reconstrução de representações 3D a partir de entradas 2D é uma tarefa fundamental em visão computacional e gráficos, servindo como uma pedra angular para compreender e interagir com o mundo físico. Embora os métodos tradicionais atinjam alta fidelidade, eles são limitados pela otimização lenta por cena ou pelo treinamento específico por categoria, o que dificulta sua implantação prática e escalabilidade. Consequentemente, a reconstrução 3D generalizável e *feed-forward* tem testemunhado um rápido desenvolvimento nos últimos anos. Ao aprender um modelo que mapeia imagens diretamente para representações 3D em uma única passagem direta, esses métodos permitem uma reconstrução eficiente e uma generalização robusta entre cenas. Nossa pesquisa é motivada por uma observação crítica: apesar das diversas representações geométricas de saída, variando de campos implícitos a primitivos explícitos, as abordagens *feed-forward* existentes compartilham padrões arquiteturais de alto nível semelhantes, como *backbones* de extração de características de imagem, mecanismos de fusão de informações multi-visão e princípios de design conscientes da geometria. Por consequência, abstraímos dessas diferenças de representação e, em vez disso, focamos no design do modelo, propondo uma nova taxonomia centrada em estratégias de design de modelo que são agnósticas ao formato de saída. Nossa taxonomia proposta organiza as direções de pesquisa em cinco problemas-chave que impulsionam o desenvolvimento recente da pesquisa: aprimoramento de características, consciência geométrica, eficiência do modelo, estratégias de aumento e modelos conscientes da temporalidade. Para fundamentar empiricamente esta taxonomia e padronizar a avaliação, revisamos ainda de forma abrangente os benchmarks e conjuntos de dados relacionados, e discutimos e categorizamos extensivamente as aplicações do mundo real baseadas em modelos 3D *feed-forward*. Por fim, delimitamos direções futuras para abordar desafios em aberto, como escalabilidade, padrões de avaliação e modelagem do mundo.

English

Reconstructing 3D representations from 2D inputs is a fundamental task in computer vision and graphics, serving as a cornerstone for understanding and interacting with the physical world. While traditional methods achieve high fidelity, they are limited by slow per-scene optimization or category-specific training, which hinders their practical deployment and scalability. Hence, generalizable feed-forward 3D reconstruction has witnessed rapid development in recent years. By learning a model that maps images directly to 3D representations in a single forward pass, these methods enable efficient reconstruction and robust cross-scene generalization. Our survey is motivated by a critical observation: despite the diverse geometric output representations, ranging from implicit fields to explicit primitives, existing feed-forward approaches share similar high-level architectural patterns, such as image feature extraction backbones, multi-view information fusion mechanisms, and geometry-aware design principles. Consequently, we abstract away from these representation differences and instead focus on model design, proposing a novel taxonomy centered on model design strategies that are agnostic to the output format. Our proposed taxonomy organizes the research directions into five key problems that drive recent research development: feature enhancement, geometry awareness, model efficiency, augmentation strategies and temporal-aware models. To support this taxonomy with empirical grounding and standardized evaluation, we further comprehensively review related benchmarks and datasets, and extensively discuss and categorize real-world applications based on feed-forward 3D models. Finally, we outline future directions to address open challenges such as scalability, evaluation standards, and world modeling.

Modelagem 3D de Cenas por Alimentação Direta: Uma Perspectiva Orientada a Problemas

Feed-Forward 3D Scene Modeling: A Problem-Driven Perspective

Resumo

Support