Flex3D: Generación 3D de Avance con Modelo de Reconstrucción Flexible y Curación de Vistas de Entrada
Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation
October 1, 2024
Autores: Junlin Han, Jianyuan Wang, Andrea Vedaldi, Philip Torr, Filippos Kokkinos
cs.AI
Resumen
La generación de contenido 3D de alta calidad a partir de texto, imágenes individuales o imágenes de vista escasa sigue siendo una tarea desafiante con amplias aplicaciones. Los métodos existentes suelen emplear modelos de difusión de múltiples vistas para sintetizar imágenes de múltiples vistas, seguidos por un proceso de avance para la reconstrucción 3D. Sin embargo, estos enfoques suelen estar limitados por un número pequeño y fijo de vistas de entrada, lo que limita su capacidad para capturar puntos de vista diversos y, peor aún, lleva a resultados de generación subóptimos si las vistas sintetizadas son de baja calidad. Para abordar estas limitaciones, proponemos Flex3D, un nuevo marco de trabajo de dos etapas capaz de aprovechar un número arbitrario de vistas de entrada de alta calidad. La primera etapa consiste en una tubería de generación y curación de vistas candidatas. Empleamos un modelo de difusión de imágenes de múltiples vistas ajustado y un modelo de difusión de video para generar un conjunto de vistas candidatas, lo que permite una representación rica del objeto 3D objetivo. Posteriormente, una tubería de selección de vistas filtra estas vistas en función de la calidad y consistencia, asegurando que solo se utilicen para la reconstrucción las vistas de alta calidad y confiables. En la segunda etapa, las vistas curadas se introducen en un Modelo de Reconstrucción Flexible (FlexRM), construido sobre una arquitectura de transformador que puede procesar de manera efectiva un número arbitrario de entradas. FlexRM produce directamente puntos Gaussianos 3D aprovechando una representación de tres planos, lo que permite una generación 3D eficiente y detallada. A través de una exploración extensa de estrategias de diseño y entrenamiento, optimizamos FlexRM para lograr un rendimiento superior tanto en tareas de reconstrucción como de generación. Nuestros resultados demuestran que Flex3D alcanza un rendimiento de vanguardia, con una tasa de éxito en estudios de usuarios de más del 92% en tareas de generación 3D en comparación con varios de los últimos modelos generativos 3D de avance directo.
English
Generating high-quality 3D content from text, single images, or sparse view
images remains a challenging task with broad applications.Existing methods
typically employ multi-view diffusion models to synthesize multi-view images,
followed by a feed-forward process for 3D reconstruction. However, these
approaches are often constrained by a small and fixed number of input views,
limiting their ability to capture diverse viewpoints and, even worse, leading
to suboptimal generation results if the synthesized views are of poor quality.
To address these limitations, we propose Flex3D, a novel two-stage framework
capable of leveraging an arbitrary number of high-quality input views. The
first stage consists of a candidate view generation and curation pipeline. We
employ a fine-tuned multi-view image diffusion model and a video diffusion
model to generate a pool of candidate views, enabling a rich representation of
the target 3D object. Subsequently, a view selection pipeline filters these
views based on quality and consistency, ensuring that only the high-quality and
reliable views are used for reconstruction. In the second stage, the curated
views are fed into a Flexible Reconstruction Model (FlexRM), built upon a
transformer architecture that can effectively process an arbitrary number of
inputs. FlemRM directly outputs 3D Gaussian points leveraging a tri-plane
representation, enabling efficient and detailed 3D generation. Through
extensive exploration of design and training strategies, we optimize FlexRM to
achieve superior performance in both reconstruction and generation tasks. Our
results demonstrate that Flex3D achieves state-of-the-art performance, with a
user study winning rate of over 92% in 3D generation tasks when compared to
several of the latest feed-forward 3D generative models.Summary
AI-Generated Summary