Flex3D: Generación 3D de Avance con Modelo de Reconstrucción Flexible y Curación de Vistas de Entrada

Resumen

La generación de contenido 3D de alta calidad a partir de texto, imágenes individuales o imágenes de vista escasa sigue siendo una tarea desafiante con amplias aplicaciones. Los métodos existentes suelen emplear modelos de difusión de múltiples vistas para sintetizar imágenes de múltiples vistas, seguidos por un proceso de avance para la reconstrucción 3D. Sin embargo, estos enfoques suelen estar limitados por un número pequeño y fijo de vistas de entrada, lo que limita su capacidad para capturar puntos de vista diversos y, peor aún, lleva a resultados de generación subóptimos si las vistas sintetizadas son de baja calidad. Para abordar estas limitaciones, proponemos Flex3D, un nuevo marco de trabajo de dos etapas capaz de aprovechar un número arbitrario de vistas de entrada de alta calidad. La primera etapa consiste en una tubería de generación y curación de vistas candidatas. Empleamos un modelo de difusión de imágenes de múltiples vistas ajustado y un modelo de difusión de video para generar un conjunto de vistas candidatas, lo que permite una representación rica del objeto 3D objetivo. Posteriormente, una tubería de selección de vistas filtra estas vistas en función de la calidad y consistencia, asegurando que solo se utilicen para la reconstrucción las vistas de alta calidad y confiables. En la segunda etapa, las vistas curadas se introducen en un Modelo de Reconstrucción Flexible (FlexRM), construido sobre una arquitectura de transformador que puede procesar de manera efectiva un número arbitrario de entradas. FlexRM produce directamente puntos Gaussianos 3D aprovechando una representación de tres planos, lo que permite una generación 3D eficiente y detallada. A través de una exploración extensa de estrategias de diseño y entrenamiento, optimizamos FlexRM para lograr un rendimiento superior tanto en tareas de reconstrucción como de generación. Nuestros resultados demuestran que Flex3D alcanza un rendimiento de vanguardia, con una tasa de éxito en estudios de usuarios de más del 92% en tareas de generación 3D en comparación con varios de los últimos modelos generativos 3D de avance directo.

English

Generating high-quality 3D content from text, single images, or sparse view images remains a challenging task with broad applications.Existing methods typically employ multi-view diffusion models to synthesize multi-view images, followed by a feed-forward process for 3D reconstruction. However, these approaches are often constrained by a small and fixed number of input views, limiting their ability to capture diverse viewpoints and, even worse, leading to suboptimal generation results if the synthesized views are of poor quality. To address these limitations, we propose Flex3D, a novel two-stage framework capable of leveraging an arbitrary number of high-quality input views. The first stage consists of a candidate view generation and curation pipeline. We employ a fine-tuned multi-view image diffusion model and a video diffusion model to generate a pool of candidate views, enabling a rich representation of the target 3D object. Subsequently, a view selection pipeline filters these views based on quality and consistency, ensuring that only the high-quality and reliable views are used for reconstruction. In the second stage, the curated views are fed into a Flexible Reconstruction Model (FlexRM), built upon a transformer architecture that can effectively process an arbitrary number of inputs. FlemRM directly outputs 3D Gaussian points leveraging a tri-plane representation, enabling efficient and detailed 3D generation. Through extensive exploration of design and training strategies, we optimize FlexRM to achieve superior performance in both reconstruction and generation tasks. Our results demonstrate that Flex3D achieves state-of-the-art performance, with a user study winning rate of over 92% in 3D generation tasks when compared to several of the latest feed-forward 3D generative models.

Flex3D: Generación 3D de Avance con Modelo de Reconstrucción Flexible y Curación de Vistas de Entrada

Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation

Resumen

Support