SceneGen: 3D-Szenengenerierung aus einem Einzelbild in einem Vorwärtsdurchlauf

papers.abstract

Die Erzeugung von 3D-Inhalten hat in letzter Zeit aufgrund ihrer Anwendungen in VR/AR und embodied AI erhebliches Forschungsinteresse geweckt. In dieser Arbeit widmen wir uns der anspruchsvollen Aufgabe, mehrere 3D-Assets innerhalb eines einzelnen Szenenbilds zu synthetisieren. Konkret bestehen unsere Beiträge aus vier Aspekten: (i) Wir stellen SceneGen vor, ein neuartiges Framework, das ein Szenenbild und entsprechende Objektmasken als Eingabe verwendet und gleichzeitig mehrere 3D-Assets mit Geometrie und Textur erzeugt. Bemerkenswerterweise arbeitet SceneGen ohne die Notwendigkeit von Optimierung oder Asset-Retrieval; (ii) Wir führen ein neuartiges Feature-Aggregationsmodul ein, das lokale und globale Szeneninformationen aus visuellen und geometrischen Encodern innerhalb des Feature-Extraktionsmoduls integriert. In Kombination mit einem Positionskopf ermöglicht dies die Erzeugung von 3D-Assets und deren relativen räumlichen Positionen in einem einzigen Feedforward-Durchlauf; (iii) Wir demonstrieren die direkte Erweiterbarkeit von SceneGen auf Szenarien mit mehreren Eingabebildern. Obwohl es ausschließlich mit Einzelbild-Eingaben trainiert wurde, ermöglicht unser Architekturdesign eine verbesserte Generierungsleistung bei mehreren Eingabebildern; und (iv) Umfangreiche quantitative und qualitative Auswertungen bestätigen die Effizienz und robusten Generierungsfähigkeiten unseres Ansatzes. Wir glauben, dass dieses Paradigm eine neuartige Lösung für die Erzeugung hochwertiger 3D-Inhalte bietet und potenziell deren praktische Anwendungen in nachgelagerten Aufgaben vorantreiben kann. Der Code und das Modell werden öffentlich verfügbar sein unter: https://mengmouxu.github.io/SceneGen.

English

3D content generation has recently attracted significant research interest due to its applications in VR/AR and embodied AI. In this work, we address the challenging task of synthesizing multiple 3D assets within a single scene image. Concretely, our contributions are fourfold: (i) we present SceneGen, a novel framework that takes a scene image and corresponding object masks as input, simultaneously producing multiple 3D assets with geometry and texture. Notably, SceneGen operates with no need for optimization or asset retrieval; (ii) we introduce a novel feature aggregation module that integrates local and global scene information from visual and geometric encoders within the feature extraction module. Coupled with a position head, this enables the generation of 3D assets and their relative spatial positions in a single feedforward pass; (iii) we demonstrate SceneGen's direct extensibility to multi-image input scenarios. Despite being trained solely on single-image inputs, our architectural design enables improved generation performance with multi-image inputs; and (iv) extensive quantitative and qualitative evaluations confirm the efficiency and robust generation abilities of our approach. We believe this paradigm offers a novel solution for high-quality 3D content generation, potentially advancing its practical applications in downstream tasks. The code and model will be publicly available at: https://mengmouxu.github.io/SceneGen.

SceneGen: 3D-Szenengenerierung aus einem Einzelbild in einem Vorwärtsdurchlauf

SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

papers.abstract

Support