ChatPaper.aiChatPaper

SceneGen : Génération de scènes 3D à partir d'une seule image en un seul passage direct

SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

August 21, 2025
papers.authors: Yanxu Meng, Haoning Wu, Ya Zhang, Weidi Xie
cs.AI

papers.abstract

La génération de contenu 3D a récemment suscité un intérêt de recherche significatif en raison de ses applications dans la réalité virtuelle/augmentée (VR/AR) et l'IA incarnée. Dans ce travail, nous abordons la tâche complexe de synthétiser plusieurs actifs 3D au sein d'une seule image de scène. Concrètement, nos contributions sont quadruples : (i) nous présentons SceneGen, un nouveau cadre de travail qui prend en entrée une image de scène et les masques d'objets correspondants, produisant simultanément plusieurs actifs 3D avec géométrie et texture. Notamment, SceneGen fonctionne sans nécessiter d'optimisation ou de récupération d'actifs ; (ii) nous introduisons un nouveau module d'agrégation de caractéristiques qui intègre des informations locales et globales de la scène à partir d'encodeurs visuels et géométriques au sein du module d'extraction de caractéristiques. Couplé avec une tête de position, cela permet la génération d'actifs 3D et de leurs positions spatiales relatives en une seule passe avant ; (iii) nous démontrons l'extensibilité directe de SceneGen aux scénarios d'entrée multi-images. Bien qu'entraîné uniquement sur des entrées à image unique, notre conception architecturale permet une amélioration des performances de génération avec des entrées multi-images ; et (iv) des évaluations quantitatives et qualitatives approfondies confirment l'efficacité et les capacités de génération robustes de notre approche. Nous croyons que ce paradigme offre une solution novatrice pour la génération de contenu 3D de haute qualité, potentiellement faisant progresser ses applications pratiques dans les tâches en aval. Le code et le modèle seront disponibles publiquement à l'adresse : https://mengmouxu.github.io/SceneGen.
English
3D content generation has recently attracted significant research interest due to its applications in VR/AR and embodied AI. In this work, we address the challenging task of synthesizing multiple 3D assets within a single scene image. Concretely, our contributions are fourfold: (i) we present SceneGen, a novel framework that takes a scene image and corresponding object masks as input, simultaneously producing multiple 3D assets with geometry and texture. Notably, SceneGen operates with no need for optimization or asset retrieval; (ii) we introduce a novel feature aggregation module that integrates local and global scene information from visual and geometric encoders within the feature extraction module. Coupled with a position head, this enables the generation of 3D assets and their relative spatial positions in a single feedforward pass; (iii) we demonstrate SceneGen's direct extensibility to multi-image input scenarios. Despite being trained solely on single-image inputs, our architectural design enables improved generation performance with multi-image inputs; and (iv) extensive quantitative and qualitative evaluations confirm the efficiency and robust generation abilities of our approach. We believe this paradigm offers a novel solution for high-quality 3D content generation, potentially advancing its practical applications in downstream tasks. The code and model will be publicly available at: https://mengmouxu.github.io/SceneGen.
PDF182August 22, 2025