Modellazione Feed-Forward di Scene 3D: Una Prospettiva Guidata dal Problema

Abstract

La ricostruzione di rappresentazioni 3D a partire da input 2D è un compito fondamentale nell'ambito della computer vision e della grafica, che funge da pietra angolare per la comprensione e l'interazione con il mondo fisico. Sebbene i metodi tradizionali raggiungano un'elevata fedeltà, sono limitati da una lenta ottimizzazione per scena o da un addestramento specifico per categoria, il che ne ostacola l'impiego pratico e la scalabilità. Di conseguenza, la ricostruzione 3D generalizzabile in feed-forward ha registrato uno sviluppo rapido negli ultimi anni. Apprendendo un modello che mappa direttamente le immagini alle rappresentazioni 3D in un singolo passaggio in avanti, questi metodi consentono una ricostruzione efficiente e una robusta generalizzazione cross-scena. La nostra rassegna è motivata da un'osservazione cruciale: nonostante le diverse rappresentazioni geometriche in output, che spaziano da campi impliciti a primitive esplicite, gli approcci feed-forward esistenti condividono pattern architetturali di alto livello simili, come backbone per l'estrazione di feature da immagini, meccanismi di fusione delle informazioni multi-vista e principi di progettazione geometry-aware. Pertanto, astraiamo da queste differenze rappresentative e ci concentriamo invece sul design del modello, proponendo una nuova tassonomia incentrata sulle strategie di progettazione del modello che sono agnostiche rispetto al formato di output. La nostra tassonomia proposta organizza le linee di ricerca in cinque problemi chiave che guidano il recente sviluppo della ricerca: enhancement delle feature, consapevolezza geometrica (geometry awareness), efficienza del modello, strategie di data augmentation e modelli temporal-aware. Per supportare questa tassonomia con basi empiriche e valutazioni standardizzate, esaminiamo inoltre in modo completo benchmark e dataset correlati, e discutiamo ampiamente e categorizziamo le applicazioni nel mondo reale basate su modelli 3D feed-forward. Infine, delimitiamo le direzioni future per affrontare sfide aperte come la scalabilità, gli standard di valutazione e la modellazione del mondo.

English

Reconstructing 3D representations from 2D inputs is a fundamental task in computer vision and graphics, serving as a cornerstone for understanding and interacting with the physical world. While traditional methods achieve high fidelity, they are limited by slow per-scene optimization or category-specific training, which hinders their practical deployment and scalability. Hence, generalizable feed-forward 3D reconstruction has witnessed rapid development in recent years. By learning a model that maps images directly to 3D representations in a single forward pass, these methods enable efficient reconstruction and robust cross-scene generalization. Our survey is motivated by a critical observation: despite the diverse geometric output representations, ranging from implicit fields to explicit primitives, existing feed-forward approaches share similar high-level architectural patterns, such as image feature extraction backbones, multi-view information fusion mechanisms, and geometry-aware design principles. Consequently, we abstract away from these representation differences and instead focus on model design, proposing a novel taxonomy centered on model design strategies that are agnostic to the output format. Our proposed taxonomy organizes the research directions into five key problems that drive recent research development: feature enhancement, geometry awareness, model efficiency, augmentation strategies and temporal-aware models. To support this taxonomy with empirical grounding and standardized evaluation, we further comprehensively review related benchmarks and datasets, and extensively discuss and categorize real-world applications based on feed-forward 3D models. Finally, we outline future directions to address open challenges such as scalability, evaluation standards, and world modeling.

Modellazione Feed-Forward di Scene 3D: Una Prospettiva Guidata dal Problema

Feed-Forward 3D Scene Modeling: A Problem-Driven Perspective

Abstract

Support