SceneGen: 3D-scènegeneratie uit één afbeelding in één voorwaartse doorgang
SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass
August 21, 2025
Auteurs: Yanxu Meng, Haoning Wu, Ya Zhang, Weidi Xie
cs.AI
Samenvatting
3D-contentgeneratie heeft recentelijk aanzienlijke onderzoeksinteresse gewekt vanwege de toepassingen in VR/AR en embodied AI. In dit werk richten we ons op de uitdagende taak om meerdere 3D-assets te synthetiseren binnen een enkele scèneafbeelding. Concreet zijn onze bijdragen vierledig: (i) we presenteren SceneGen, een nieuw framework dat een scèneafbeelding en bijbehorende objectmaskers als invoer neemt en tegelijkertijd meerdere 3D-assets met geometrie en textuur produceert. Opmerkelijk is dat SceneGen werkt zonder de noodzaak van optimalisatie of assetretrieval; (ii) we introduceren een nieuw feature-aggregatiemodule dat lokale en globale scène-informatie integreert van visuele en geometrische encoders binnen de feature-extractiemodule. In combinatie met een positiekop maakt dit de generatie van 3D-assets en hun relatieve ruimtelijke posities mogelijk in een enkele voorwaartse doorloop; (iii) we demonstreren de directe uitbreidbaarheid van SceneGen naar scenario's met meerdere afbeeldingen als invoer. Ondanks dat het uitsluitend is getraind op invoer met één afbeelding, maakt onze architectuurontwerp verbeterde generatieprestaties mogelijk met invoer van meerdere afbeeldingen; en (iv) uitgebreide kwantitatieve en kwalitatieve evaluaties bevestigen de efficiëntie en robuuste generatiecapaciteiten van onze aanpak. Wij geloven dat dit paradigma een nieuwe oplossing biedt voor hoogwaardige 3D-contentgeneratie, wat de praktische toepassingen ervan in downstream taken potentieel kan bevorderen. De code en het model zullen publiekelijk beschikbaar zijn op: https://mengmouxu.github.io/SceneGen.
English
3D content generation has recently attracted significant research interest
due to its applications in VR/AR and embodied AI. In this work, we address the
challenging task of synthesizing multiple 3D assets within a single scene
image. Concretely, our contributions are fourfold: (i) we present SceneGen, a
novel framework that takes a scene image and corresponding object masks as
input, simultaneously producing multiple 3D assets with geometry and texture.
Notably, SceneGen operates with no need for optimization or asset retrieval;
(ii) we introduce a novel feature aggregation module that integrates local and
global scene information from visual and geometric encoders within the feature
extraction module. Coupled with a position head, this enables the generation of
3D assets and their relative spatial positions in a single feedforward pass;
(iii) we demonstrate SceneGen's direct extensibility to multi-image input
scenarios. Despite being trained solely on single-image inputs, our
architectural design enables improved generation performance with multi-image
inputs; and (iv) extensive quantitative and qualitative evaluations confirm the
efficiency and robust generation abilities of our approach. We believe this
paradigm offers a novel solution for high-quality 3D content generation,
potentially advancing its practical applications in downstream tasks. The code
and model will be publicly available at: https://mengmouxu.github.io/SceneGen.