Flex3D: Generazione 3D Feed-Forward con Modello di Ricostruzione Flessibile e Cura della Vista di Input
Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation
October 1, 2024
Autori: Junlin Han, Jianyuan Wang, Andrea Vedaldi, Philip Torr, Filippos Kokkinos
cs.AI
Abstract
La generazione di contenuti 3D di alta qualità da testo, singole immagini o immagini di vista sparse rimane un compito impegnativo con ampie applicazioni. I metodi esistenti di solito impiegano modelli di diffusione multi-vista per sintetizzare immagini multi-vista, seguiti da un processo feed-forward per la ricostruzione 3D. Tuttavia, questi approcci sono spesso vincolati da un numero ridotto e fisso di viste di input, limitando la loro capacità di catturare punti di vista diversi e, ancora peggio, portando a risultati di generazione subottimali se le viste sintetizzate sono di scarsa qualità. Per affrontare queste limitazioni, proponiamo Flex3D, un nuovo framework a due fasi in grado di sfruttare un numero arbitrario di viste di input di alta qualità. La prima fase consiste in un flusso di lavoro di generazione e cura delle viste candidate. Utilizziamo un modello di diffusione di immagini multi-vista ottimizzato e un modello di diffusione video per generare un pool di viste candidate, consentendo una rappresentazione ricca dell'oggetto 3D target. Successivamente, un flusso di selezione delle viste filtra queste viste in base alla qualità e alla coerenza, garantendo che solo le viste di alta qualità e affidabili siano utilizzate per la ricostruzione. Nella seconda fase, le viste curate vengono alimentate in un Modello di Ricostruzione Flessibile (FlexRM), basato su un'architettura transformer in grado di elaborare efficacemente un numero arbitrario di input. FlexRM produce direttamente punti Gaussiani 3D sfruttando una rappresentazione tri-piano, consentendo una generazione 3D efficiente e dettagliata. Attraverso un'ampia esplorazione di strategie di progettazione e addestramento, ottimizziamo FlexRM per ottenere prestazioni superiori sia nella ricostruzione che nelle attività di generazione. I nostri risultati dimostrano che Flex3D raggiunge prestazioni all'avanguardia, con un tasso di successo in uno studio utente superiore al 92% nelle attività di generazione 3D rispetto a diversi dei più recenti modelli generativi 3D feed-forward.
English
Generating high-quality 3D content from text, single images, or sparse view
images remains a challenging task with broad applications.Existing methods
typically employ multi-view diffusion models to synthesize multi-view images,
followed by a feed-forward process for 3D reconstruction. However, these
approaches are often constrained by a small and fixed number of input views,
limiting their ability to capture diverse viewpoints and, even worse, leading
to suboptimal generation results if the synthesized views are of poor quality.
To address these limitations, we propose Flex3D, a novel two-stage framework
capable of leveraging an arbitrary number of high-quality input views. The
first stage consists of a candidate view generation and curation pipeline. We
employ a fine-tuned multi-view image diffusion model and a video diffusion
model to generate a pool of candidate views, enabling a rich representation of
the target 3D object. Subsequently, a view selection pipeline filters these
views based on quality and consistency, ensuring that only the high-quality and
reliable views are used for reconstruction. In the second stage, the curated
views are fed into a Flexible Reconstruction Model (FlexRM), built upon a
transformer architecture that can effectively process an arbitrary number of
inputs. FlemRM directly outputs 3D Gaussian points leveraging a tri-plane
representation, enabling efficient and detailed 3D generation. Through
extensive exploration of design and training strategies, we optimize FlexRM to
achieve superior performance in both reconstruction and generation tasks. Our
results demonstrate that Flex3D achieves state-of-the-art performance, with a
user study winning rate of over 92% in 3D generation tasks when compared to
several of the latest feed-forward 3D generative models.