ChatPaper.aiChatPaper

Flex3D: Geração 3D Feed-Forward com Modelo de Reconstrução Flexível e Curadoria de Visualização de Entrada

Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation

October 1, 2024
Autores: Junlin Han, Jianyuan Wang, Andrea Vedaldi, Philip Torr, Filippos Kokkinos
cs.AI

Resumo

Gerar conteúdo 3D de alta qualidade a partir de texto, imagens individuais ou imagens de visualização esparsas continua sendo uma tarefa desafiadora com amplas aplicações. Métodos existentes geralmente empregam modelos de difusão multi-visual para sintetizar imagens multi-visual, seguidos por um processo feed-forward para reconstrução 3D. No entanto, essas abordagens são frequentemente limitadas por um número pequeno e fixo de visualizações de entrada, restringindo sua capacidade de capturar pontos de vista diversos e, pior ainda, resultando em resultados de geração subótimos se as visualizações sintetizadas forem de baixa qualidade. Para lidar com essas limitações, propomos o Flex3D, um novo framework em duas etapas capaz de aproveitar um número arbitrário de visualizações de entrada de alta qualidade. A primeira etapa consiste em um pipeline de geração e curadoria de visualizações candidatas. Empregamos um modelo de difusão de imagens multi-visual ajustado e um modelo de difusão de vídeo para gerar um conjunto de visualizações candidatas, possibilitando uma representação rica do objeto 3D alvo. Posteriormente, um pipeline de seleção de visualizações filtra essas visualizações com base na qualidade e consistência, garantindo que apenas as visualizações de alta qualidade e confiáveis sejam usadas para a reconstrução. Na segunda etapa, as visualizações curadas são alimentadas em um Modelo de Reconstrução Flexível (FlexRM), construído com base em uma arquitetura de transformer que pode processar efetivamente um número arbitrário de entradas. O FlexRM produz diretamente pontos Gaussianos 3D utilizando uma representação tri-planar, possibilitando uma geração 3D eficiente e detalhada. Através de uma extensa exploração de estratégias de design e treinamento, otimizamos o FlexRM para alcançar um desempenho superior em tarefas de reconstrução e geração. Nossos resultados demonstram que o Flex3D alcança um desempenho de ponta, com uma taxa de sucesso em estudos de usuários de mais de 92% em tarefas de geração 3D quando comparado com vários dos mais recentes modelos generativos 3D feed-forward.
English
Generating high-quality 3D content from text, single images, or sparse view images remains a challenging task with broad applications.Existing methods typically employ multi-view diffusion models to synthesize multi-view images, followed by a feed-forward process for 3D reconstruction. However, these approaches are often constrained by a small and fixed number of input views, limiting their ability to capture diverse viewpoints and, even worse, leading to suboptimal generation results if the synthesized views are of poor quality. To address these limitations, we propose Flex3D, a novel two-stage framework capable of leveraging an arbitrary number of high-quality input views. The first stage consists of a candidate view generation and curation pipeline. We employ a fine-tuned multi-view image diffusion model and a video diffusion model to generate a pool of candidate views, enabling a rich representation of the target 3D object. Subsequently, a view selection pipeline filters these views based on quality and consistency, ensuring that only the high-quality and reliable views are used for reconstruction. In the second stage, the curated views are fed into a Flexible Reconstruction Model (FlexRM), built upon a transformer architecture that can effectively process an arbitrary number of inputs. FlemRM directly outputs 3D Gaussian points leveraging a tri-plane representation, enabling efficient and detailed 3D generation. Through extensive exploration of design and training strategies, we optimize FlexRM to achieve superior performance in both reconstruction and generation tasks. Our results demonstrate that Flex3D achieves state-of-the-art performance, with a user study winning rate of over 92% in 3D generation tasks when compared to several of the latest feed-forward 3D generative models.

Summary

AI-Generated Summary

PDF205November 13, 2024