SceneGen: 3D-Szenengenerierung aus einem Einzelbild in einem Vorwärtsdurchlauf
SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass
August 21, 2025
papers.authors: Yanxu Meng, Haoning Wu, Ya Zhang, Weidi Xie
cs.AI
papers.abstract
Die Erzeugung von 3D-Inhalten hat in letzter Zeit aufgrund ihrer Anwendungen in VR/AR und embodied AI erhebliches Forschungsinteresse geweckt. In dieser Arbeit widmen wir uns der anspruchsvollen Aufgabe, mehrere 3D-Assets innerhalb eines einzelnen Szenenbilds zu synthetisieren. Konkret bestehen unsere Beiträge aus vier Aspekten: (i) Wir stellen SceneGen vor, ein neuartiges Framework, das ein Szenenbild und entsprechende Objektmasken als Eingabe verwendet und gleichzeitig mehrere 3D-Assets mit Geometrie und Textur erzeugt. Bemerkenswerterweise arbeitet SceneGen ohne die Notwendigkeit von Optimierung oder Asset-Retrieval; (ii) Wir führen ein neuartiges Feature-Aggregationsmodul ein, das lokale und globale Szeneninformationen aus visuellen und geometrischen Encodern innerhalb des Feature-Extraktionsmoduls integriert. In Kombination mit einem Positionskopf ermöglicht dies die Erzeugung von 3D-Assets und deren relativen räumlichen Positionen in einem einzigen Feedforward-Durchlauf; (iii) Wir demonstrieren die direkte Erweiterbarkeit von SceneGen auf Szenarien mit mehreren Eingabebildern. Obwohl es ausschließlich mit Einzelbild-Eingaben trainiert wurde, ermöglicht unser Architekturdesign eine verbesserte Generierungsleistung bei mehreren Eingabebildern; und (iv) Umfangreiche quantitative und qualitative Auswertungen bestätigen die Effizienz und robusten Generierungsfähigkeiten unseres Ansatzes. Wir glauben, dass dieses Paradigm eine neuartige Lösung für die Erzeugung hochwertiger 3D-Inhalte bietet und potenziell deren praktische Anwendungen in nachgelagerten Aufgaben vorantreiben kann. Der Code und das Modell werden öffentlich verfügbar sein unter: https://mengmouxu.github.io/SceneGen.
English
3D content generation has recently attracted significant research interest
due to its applications in VR/AR and embodied AI. In this work, we address the
challenging task of synthesizing multiple 3D assets within a single scene
image. Concretely, our contributions are fourfold: (i) we present SceneGen, a
novel framework that takes a scene image and corresponding object masks as
input, simultaneously producing multiple 3D assets with geometry and texture.
Notably, SceneGen operates with no need for optimization or asset retrieval;
(ii) we introduce a novel feature aggregation module that integrates local and
global scene information from visual and geometric encoders within the feature
extraction module. Coupled with a position head, this enables the generation of
3D assets and their relative spatial positions in a single feedforward pass;
(iii) we demonstrate SceneGen's direct extensibility to multi-image input
scenarios. Despite being trained solely on single-image inputs, our
architectural design enables improved generation performance with multi-image
inputs; and (iv) extensive quantitative and qualitative evaluations confirm the
efficiency and robust generation abilities of our approach. We believe this
paradigm offers a novel solution for high-quality 3D content generation,
potentially advancing its practical applications in downstream tasks. The code
and model will be publicly available at: https://mengmouxu.github.io/SceneGen.