SceneGen: 3D-scènegeneratie uit één afbeelding in één voorwaartse doorgang

Samenvatting

3D-contentgeneratie heeft recentelijk aanzienlijke onderzoeksinteresse gewekt vanwege de toepassingen in VR/AR en embodied AI. In dit werk richten we ons op de uitdagende taak om meerdere 3D-assets te synthetiseren binnen een enkele scèneafbeelding. Concreet zijn onze bijdragen vierledig: (i) we presenteren SceneGen, een nieuw framework dat een scèneafbeelding en bijbehorende objectmaskers als invoer neemt en tegelijkertijd meerdere 3D-assets met geometrie en textuur produceert. Opmerkelijk is dat SceneGen werkt zonder de noodzaak van optimalisatie of assetretrieval; (ii) we introduceren een nieuw feature-aggregatiemodule dat lokale en globale scène-informatie integreert van visuele en geometrische encoders binnen de feature-extractiemodule. In combinatie met een positiekop maakt dit de generatie van 3D-assets en hun relatieve ruimtelijke posities mogelijk in een enkele voorwaartse doorloop; (iii) we demonstreren de directe uitbreidbaarheid van SceneGen naar scenario's met meerdere afbeeldingen als invoer. Ondanks dat het uitsluitend is getraind op invoer met één afbeelding, maakt onze architectuurontwerp verbeterde generatieprestaties mogelijk met invoer van meerdere afbeeldingen; en (iv) uitgebreide kwantitatieve en kwalitatieve evaluaties bevestigen de efficiëntie en robuuste generatiecapaciteiten van onze aanpak. Wij geloven dat dit paradigma een nieuwe oplossing biedt voor hoogwaardige 3D-contentgeneratie, wat de praktische toepassingen ervan in downstream taken potentieel kan bevorderen. De code en het model zullen publiekelijk beschikbaar zijn op: https://mengmouxu.github.io/SceneGen.

English

3D content generation has recently attracted significant research interest due to its applications in VR/AR and embodied AI. In this work, we address the challenging task of synthesizing multiple 3D assets within a single scene image. Concretely, our contributions are fourfold: (i) we present SceneGen, a novel framework that takes a scene image and corresponding object masks as input, simultaneously producing multiple 3D assets with geometry and texture. Notably, SceneGen operates with no need for optimization or asset retrieval; (ii) we introduce a novel feature aggregation module that integrates local and global scene information from visual and geometric encoders within the feature extraction module. Coupled with a position head, this enables the generation of 3D assets and their relative spatial positions in a single feedforward pass; (iii) we demonstrate SceneGen's direct extensibility to multi-image input scenarios. Despite being trained solely on single-image inputs, our architectural design enables improved generation performance with multi-image inputs; and (iv) extensive quantitative and qualitative evaluations confirm the efficiency and robust generation abilities of our approach. We believe this paradigm offers a novel solution for high-quality 3D content generation, potentially advancing its practical applications in downstream tasks. The code and model will be publicly available at: https://mengmouxu.github.io/SceneGen.

SceneGen: 3D-scènegeneratie uit één afbeelding in één voorwaartse doorgang

SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

Samenvatting

Support