ChatPaper.aiChatPaper

SceneGen: Генерация 3D-сцены из одного изображения за один прямой проход

SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

August 21, 2025
Авторы: Yanxu Meng, Haoning Wu, Ya Zhang, Weidi Xie
cs.AI

Аннотация

Генерация 3D-контента в последнее время привлекает значительный исследовательский интерес благодаря своим приложениям в VR/AR и воплощенном ИИ. В данной работе мы решаем сложную задачу синтеза нескольких 3D-объектов в рамках одной сцены. Конкретно, наши вклады заключаются в следующем: (i) мы представляем SceneGen, новый фреймворк, который принимает на вход изображение сцены и соответствующие маски объектов, одновременно создавая несколько 3D-объектов с геометрией и текстурой. Важно отметить, что SceneGen работает без необходимости оптимизации или поиска ассетов; (ii) мы вводим новый модуль агрегации признаков, который интегрирует локальную и глобальную информацию о сцене из визуальных и геометрических энкодеров в рамках модуля извлечения признаков. В сочетании с позиционным модулем это позволяет генерировать 3D-объекты и их относительные пространственные позиции за один прямой проход; (iii) мы демонстрируем прямую расширяемость SceneGen для сценариев с несколькими входными изображениями. Несмотря на обучение только на одиночных изображениях, наша архитектура позволяет улучшить качество генерации при использовании нескольких входных изображений; и (iv) обширные количественные и качественные оценки подтверждают эффективность и надежные способности генерации нашего подхода. Мы считаем, что эта парадигма предлагает новое решение для генерации высококачественного 3D-контента, потенциально продвигая его практические применения в последующих задачах. Код и модель будут общедоступны по адресу: https://mengmouxu.github.io/SceneGen.
English
3D content generation has recently attracted significant research interest due to its applications in VR/AR and embodied AI. In this work, we address the challenging task of synthesizing multiple 3D assets within a single scene image. Concretely, our contributions are fourfold: (i) we present SceneGen, a novel framework that takes a scene image and corresponding object masks as input, simultaneously producing multiple 3D assets with geometry and texture. Notably, SceneGen operates with no need for optimization or asset retrieval; (ii) we introduce a novel feature aggregation module that integrates local and global scene information from visual and geometric encoders within the feature extraction module. Coupled with a position head, this enables the generation of 3D assets and their relative spatial positions in a single feedforward pass; (iii) we demonstrate SceneGen's direct extensibility to multi-image input scenarios. Despite being trained solely on single-image inputs, our architectural design enables improved generation performance with multi-image inputs; and (iv) extensive quantitative and qualitative evaluations confirm the efficiency and robust generation abilities of our approach. We believe this paradigm offers a novel solution for high-quality 3D content generation, potentially advancing its practical applications in downstream tasks. The code and model will be publicly available at: https://mengmouxu.github.io/SceneGen.
PDF182August 22, 2025