ChatPaper.aiChatPaper

SceneGen: Generazione di Scene 3D da una Singola Immagine in un Unico Passaggio in Avanti

SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

August 21, 2025
Autori: Yanxu Meng, Haoning Wu, Ya Zhang, Weidi Xie
cs.AI

Abstract

La generazione di contenuti 3D ha recentemente attirato un significativo interesse di ricerca grazie alle sue applicazioni in VR/AR e nell'AI incarnata. In questo lavoro, affrontiamo il compito impegnativo di sintetizzare più asset 3D all'interno di una singola immagine di scena. Nello specifico, i nostri contributi sono quattro: (i) presentiamo SceneGen, un nuovo framework che prende in input un'immagine di scena e le corrispondenti maschere degli oggetti, producendo simultaneamente più asset 3D con geometria e texture. È importante notare che SceneGen opera senza la necessità di ottimizzazione o recupero di asset; (ii) introduciamo un nuovo modulo di aggregazione delle feature che integra informazioni locali e globali della scena da encoder visivi e geometrici all'interno del modulo di estrazione delle feature. Accoppiato con una testa di posizione, ciò consente la generazione di asset 3D e delle loro posizioni spaziali relative in un unico passaggio in avanti; (iii) dimostriamo l'estensibilità diretta di SceneGen a scenari di input multi-immagine. Nonostante sia stato addestrato esclusivamente su input a singola immagine, il nostro design architetturale consente prestazioni di generazione migliorate con input multi-immagine; e (iv) valutazioni quantitative e qualitative estensive confermano l'efficienza e le robuste capacità di generazione del nostro approccio. Crediamo che questo paradigma offra una soluzione innovativa per la generazione di contenuti 3D di alta qualità, potenzialmente avanzando le sue applicazioni pratiche nei compiti a valle. Il codice e il modello saranno pubblicamente disponibili all'indirizzo: https://mengmouxu.github.io/SceneGen.
English
3D content generation has recently attracted significant research interest due to its applications in VR/AR and embodied AI. In this work, we address the challenging task of synthesizing multiple 3D assets within a single scene image. Concretely, our contributions are fourfold: (i) we present SceneGen, a novel framework that takes a scene image and corresponding object masks as input, simultaneously producing multiple 3D assets with geometry and texture. Notably, SceneGen operates with no need for optimization or asset retrieval; (ii) we introduce a novel feature aggregation module that integrates local and global scene information from visual and geometric encoders within the feature extraction module. Coupled with a position head, this enables the generation of 3D assets and their relative spatial positions in a single feedforward pass; (iii) we demonstrate SceneGen's direct extensibility to multi-image input scenarios. Despite being trained solely on single-image inputs, our architectural design enables improved generation performance with multi-image inputs; and (iv) extensive quantitative and qualitative evaluations confirm the efficiency and robust generation abilities of our approach. We believe this paradigm offers a novel solution for high-quality 3D content generation, potentially advancing its practical applications in downstream tasks. The code and model will be publicly available at: https://mengmouxu.github.io/SceneGen.
PDF192August 22, 2025