ChatPaper.aiChatPaper

FlashWorld: Генерация высококачественных 3D-сцен за считанные секунды

FlashWorld: High-quality 3D Scene Generation within Seconds

October 15, 2025
Авторы: Xinyang Li, Tengfei Wang, Zixiao Gu, Shengchuan Zhang, Chunchao Guo, Liujuan Cao
cs.AI

Аннотация

Мы представляем FlashWorld, генеративную модель, которая создает 3D-сцены из одного изображения или текстового запроса за секунды, что в 10–100 раз быстрее, чем предыдущие работы, при этом обеспечивая превосходное качество рендеринга. Наш подход отходит от традиционной парадигмы, ориентированной на многовидовые изображения (MV-ориентированной), которая генерирует многовидовые изображения для последующей 3D-реконструкции, к 3D-ориентированному подходу, где модель напрямую создает 3D-гауссовы представления в процессе многовидовой генерации. Хотя 3D-ориентированный метод обеспечивает 3D-согласованность, он обычно страдает от низкого визуального качества. FlashWorld включает двухэтапный процесс предварительного обучения, за которым следует кросс-модовое пост-обучение, эффективно интегрируя преимущества обеих парадигм. В частности, используя априорные данные из видео-диффузионной модели, мы сначала предварительно обучаем двухмодовую многовидовую диффузионную модель, которая поддерживает как MV-ориентированный, так и 3D-ориентированный режимы генерации. Чтобы устранить разрыв в качестве 3D-ориентированной генерации, мы предлагаем кросс-модовое пост-обучение с дистилляцией, сопоставляя распределения из согласованного 3D-ориентированного режима с высококачественным MV-ориентированным режимом. Это не только улучшает визуальное качество, сохраняя 3D-согласованность, но и сокращает количество шагов шумоподавления, необходимых для вывода. Кроме того, мы предлагаем стратегию использования большого количества одновидовых изображений и текстовых запросов в этом процессе для улучшения обобщающей способности модели на входные данные, выходящие за пределы распределения. Многочисленные эксперименты демонстрируют превосходство и эффективность нашего метода.
English
We propose FlashWorld, a generative model that produces 3D scenes from a single image or text prompt in seconds, 10~100times faster than previous works while possessing superior rendering quality. Our approach shifts from the conventional multi-view-oriented (MV-oriented) paradigm, which generates multi-view images for subsequent 3D reconstruction, to a 3D-oriented approach where the model directly produces 3D Gaussian representations during multi-view generation. While ensuring 3D consistency, 3D-oriented method typically suffers poor visual quality. FlashWorld includes a dual-mode pre-training phase followed by a cross-mode post-training phase, effectively integrating the strengths of both paradigms. Specifically, leveraging the prior from a video diffusion model, we first pre-train a dual-mode multi-view diffusion model, which jointly supports MV-oriented and 3D-oriented generation modes. To bridge the quality gap in 3D-oriented generation, we further propose a cross-mode post-training distillation by matching distribution from consistent 3D-oriented mode to high-quality MV-oriented mode. This not only enhances visual quality while maintaining 3D consistency, but also reduces the required denoising steps for inference. Also, we propose a strategy to leverage massive single-view images and text prompts during this process to enhance the model's generalization to out-of-distribution inputs. Extensive experiments demonstrate the superiority and efficiency of our method.
PDF672October 16, 2025