SceneGen: Geração de Cenas 3D a partir de uma Única Imagem em uma Única Passagem de Feedforward

Resumo

A geração de conteúdo 3D tem recentemente atraído um interesse significativo de pesquisa devido às suas aplicações em VR/AR e IA incorporada. Neste trabalho, abordamos a tarefa desafiadora de sintetizar múltiplos ativos 3D dentro de uma única imagem de cena. Concretamente, nossas contribuições são quatro: (i) apresentamos o SceneGen, um novo framework que recebe uma imagem de cena e máscaras de objetos correspondentes como entrada, produzindo simultaneamente múltiplos ativos 3D com geometria e textura. Notavelmente, o SceneGen opera sem a necessidade de otimização ou recuperação de ativos; (ii) introduzimos um novo módulo de agregação de características que integra informações locais e globais da cena a partir de codificadores visuais e geométricos dentro do módulo de extração de características. Acoplado a um cabeçalho de posição, isso permite a geração de ativos 3D e suas posições espaciais relativas em uma única passagem direta; (iii) demonstramos a extensibilidade direta do SceneGen para cenários de entrada de múltiplas imagens. Apesar de ter sido treinado apenas com entradas de imagem única, nosso design arquitetônico permite um desempenho de geração aprimorado com entradas de múltiplas imagens; e (iv) extensas avaliações quantitativas e qualitativas confirmam a eficiência e as robustas habilidades de geração da nossa abordagem. Acreditamos que este paradigma oferece uma nova solução para a geração de conteúdo 3D de alta qualidade, potencialmente avançando suas aplicações práticas em tarefas subsequentes. O código e o modelo estarão publicamente disponíveis em: https://mengmouxu.github.io/SceneGen.

English

3D content generation has recently attracted significant research interest due to its applications in VR/AR and embodied AI. In this work, we address the challenging task of synthesizing multiple 3D assets within a single scene image. Concretely, our contributions are fourfold: (i) we present SceneGen, a novel framework that takes a scene image and corresponding object masks as input, simultaneously producing multiple 3D assets with geometry and texture. Notably, SceneGen operates with no need for optimization or asset retrieval; (ii) we introduce a novel feature aggregation module that integrates local and global scene information from visual and geometric encoders within the feature extraction module. Coupled with a position head, this enables the generation of 3D assets and their relative spatial positions in a single feedforward pass; (iii) we demonstrate SceneGen's direct extensibility to multi-image input scenarios. Despite being trained solely on single-image inputs, our architectural design enables improved generation performance with multi-image inputs; and (iv) extensive quantitative and qualitative evaluations confirm the efficiency and robust generation abilities of our approach. We believe this paradigm offers a novel solution for high-quality 3D content generation, potentially advancing its practical applications in downstream tasks. The code and model will be publicly available at: https://mengmouxu.github.io/SceneGen.

SceneGen: Geração de Cenas 3D a partir de uma Única Imagem em uma Única Passagem de Feedforward

SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

Resumo

Support