SceneGen: Geração de Cenas 3D a partir de uma Única Imagem em uma Única Passagem de Feedforward
SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass
August 21, 2025
Autores: Yanxu Meng, Haoning Wu, Ya Zhang, Weidi Xie
cs.AI
Resumo
A geração de conteúdo 3D tem recentemente atraído um interesse significativo de pesquisa devido às suas aplicações em VR/AR e IA incorporada. Neste trabalho, abordamos a tarefa desafiadora de sintetizar múltiplos ativos 3D dentro de uma única imagem de cena. Concretamente, nossas contribuições são quatro: (i) apresentamos o SceneGen, um novo framework que recebe uma imagem de cena e máscaras de objetos correspondentes como entrada, produzindo simultaneamente múltiplos ativos 3D com geometria e textura. Notavelmente, o SceneGen opera sem a necessidade de otimização ou recuperação de ativos; (ii) introduzimos um novo módulo de agregação de características que integra informações locais e globais da cena a partir de codificadores visuais e geométricos dentro do módulo de extração de características. Acoplado a um cabeçalho de posição, isso permite a geração de ativos 3D e suas posições espaciais relativas em uma única passagem direta; (iii) demonstramos a extensibilidade direta do SceneGen para cenários de entrada de múltiplas imagens. Apesar de ter sido treinado apenas com entradas de imagem única, nosso design arquitetônico permite um desempenho de geração aprimorado com entradas de múltiplas imagens; e (iv) extensas avaliações quantitativas e qualitativas confirmam a eficiência e as robustas habilidades de geração da nossa abordagem. Acreditamos que este paradigma oferece uma nova solução para a geração de conteúdo 3D de alta qualidade, potencialmente avançando suas aplicações práticas em tarefas subsequentes. O código e o modelo estarão publicamente disponíveis em: https://mengmouxu.github.io/SceneGen.
English
3D content generation has recently attracted significant research interest
due to its applications in VR/AR and embodied AI. In this work, we address the
challenging task of synthesizing multiple 3D assets within a single scene
image. Concretely, our contributions are fourfold: (i) we present SceneGen, a
novel framework that takes a scene image and corresponding object masks as
input, simultaneously producing multiple 3D assets with geometry and texture.
Notably, SceneGen operates with no need for optimization or asset retrieval;
(ii) we introduce a novel feature aggregation module that integrates local and
global scene information from visual and geometric encoders within the feature
extraction module. Coupled with a position head, this enables the generation of
3D assets and their relative spatial positions in a single feedforward pass;
(iii) we demonstrate SceneGen's direct extensibility to multi-image input
scenarios. Despite being trained solely on single-image inputs, our
architectural design enables improved generation performance with multi-image
inputs; and (iv) extensive quantitative and qualitative evaluations confirm the
efficiency and robust generation abilities of our approach. We believe this
paradigm offers a novel solution for high-quality 3D content generation,
potentially advancing its practical applications in downstream tasks. The code
and model will be publicly available at: https://mengmouxu.github.io/SceneGen.