ChatPaper.aiChatPaper

Voortschrijdende 3D-scènemodellering: Een probleemgestuurd perspectief

Feed-Forward 3D Scene Modeling: A Problem-Driven Perspective

April 15, 2026
Auteurs: Weijie Wang, Qihang Cao, Sensen Gao, Donny Y. Chen, Haofei Xu, Wenjing Bian, Songyou Peng, Tat-Jen Cham, Chuanxia Zheng, Andreas Geiger, Jianfei Cai, Jia-Wang Bian, Bohan Zhuang
cs.AI

Samenvatting

Het reconstrueren van 3D-representaties uit 2D-invoer is een fundamentele taak in computer vision en grafische technologie, en fungeert als een hoeksteen voor het begrijpen van en interactie met de fysieke wereld. Hoewel traditionele methoden een hoge nauwkeurigheid bereiken, worden zij beperkt door trage optimalisatie per scène of categorie-specifieke training, wat hun praktische inzet en schaalbaarheid belemmert. Daarom heeft generaliseerbare voorwaartse 3D-reconstructie de afgelopen jaren een snelle ontwikkeling doorgemaakt. Door een model te leren dat afbeeldingen direct naar 3D-representaties afbeeldt in één voorwaartse pass, maken deze methoden efficiënte reconstructie en robuuste generalisatie over verschillende scènes mogelijk. Ons overzicht wordt gemotiveerd door een kritische observatie: ondanks de diverse geometrische uitvoerrepresentaties, variërend van impliciete velden tot expliciete primitieven, delen bestaande voorwaartse benaderingen vergelijkbaar hoogwaardige architectuurpatronen, zoals backbones voor beeldkenmerkextractie, mechanismen voor multi-view-informatiefusie en geometriebewuste ontwerpprincipes. Bijgevolg abstraheren we van deze representatieverschillen en richten we ons in plaats daarvan op modelontwerp, waarbij we een nieuwe taxonomie voorstellen die zich richt op modelontwerpstrategieën die onafhankelijk zijn van het uitvoerformaat. Onze voorgestelde taxonomie organiseert de onderzoeksrichtingen in vijf kernproblemen die de recente onderzoeksontwikkeling sturen: kenmerkverbetering, geometriebewustzijn, model efficiëntie, augmentatiestrategieën en temporeel bewuste modellen. Om deze taxonomie te ondersteunen met empirische onderbouwing en gestandaardiseerde evaluatie, bespreken we verder uitgebreid gerelateerde benchmarks en datasets, en categoriseren we uitgebreid real-world toepassingen op basis van voorwaartse 3D-modellen. Ten slotte schetsen we toekomstige richtingen om open uitdagingen aan te pakken, zoals schaalbaarheid, evaluatiestandaarden en wereldmodellering.
English
Reconstructing 3D representations from 2D inputs is a fundamental task in computer vision and graphics, serving as a cornerstone for understanding and interacting with the physical world. While traditional methods achieve high fidelity, they are limited by slow per-scene optimization or category-specific training, which hinders their practical deployment and scalability. Hence, generalizable feed-forward 3D reconstruction has witnessed rapid development in recent years. By learning a model that maps images directly to 3D representations in a single forward pass, these methods enable efficient reconstruction and robust cross-scene generalization. Our survey is motivated by a critical observation: despite the diverse geometric output representations, ranging from implicit fields to explicit primitives, existing feed-forward approaches share similar high-level architectural patterns, such as image feature extraction backbones, multi-view information fusion mechanisms, and geometry-aware design principles. Consequently, we abstract away from these representation differences and instead focus on model design, proposing a novel taxonomy centered on model design strategies that are agnostic to the output format. Our proposed taxonomy organizes the research directions into five key problems that drive recent research development: feature enhancement, geometry awareness, model efficiency, augmentation strategies and temporal-aware models. To support this taxonomy with empirical grounding and standardized evaluation, we further comprehensively review related benchmarks and datasets, and extensively discuss and categorize real-world applications based on feed-forward 3D models. Finally, we outline future directions to address open challenges such as scalability, evaluation standards, and world modeling.
PDF112April 18, 2026