ChatPaper.aiChatPaper

Flex3D: Generazione 3D Feed-Forward con Modello di Ricostruzione Flessibile e Cura della Vista di Input

Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation

October 1, 2024
Autori: Junlin Han, Jianyuan Wang, Andrea Vedaldi, Philip Torr, Filippos Kokkinos
cs.AI

Abstract

La generazione di contenuti 3D di alta qualità da testo, singole immagini o immagini di vista sparse rimane un compito impegnativo con ampie applicazioni. I metodi esistenti di solito impiegano modelli di diffusione multi-vista per sintetizzare immagini multi-vista, seguiti da un processo feed-forward per la ricostruzione 3D. Tuttavia, questi approcci sono spesso vincolati da un numero ridotto e fisso di viste di input, limitando la loro capacità di catturare punti di vista diversi e, ancora peggio, portando a risultati di generazione subottimali se le viste sintetizzate sono di scarsa qualità. Per affrontare queste limitazioni, proponiamo Flex3D, un nuovo framework a due fasi in grado di sfruttare un numero arbitrario di viste di input di alta qualità. La prima fase consiste in un flusso di lavoro di generazione e cura delle viste candidate. Utilizziamo un modello di diffusione di immagini multi-vista ottimizzato e un modello di diffusione video per generare un pool di viste candidate, consentendo una rappresentazione ricca dell'oggetto 3D target. Successivamente, un flusso di selezione delle viste filtra queste viste in base alla qualità e alla coerenza, garantendo che solo le viste di alta qualità e affidabili siano utilizzate per la ricostruzione. Nella seconda fase, le viste curate vengono alimentate in un Modello di Ricostruzione Flessibile (FlexRM), basato su un'architettura transformer in grado di elaborare efficacemente un numero arbitrario di input. FlexRM produce direttamente punti Gaussiani 3D sfruttando una rappresentazione tri-piano, consentendo una generazione 3D efficiente e dettagliata. Attraverso un'ampia esplorazione di strategie di progettazione e addestramento, ottimizziamo FlexRM per ottenere prestazioni superiori sia nella ricostruzione che nelle attività di generazione. I nostri risultati dimostrano che Flex3D raggiunge prestazioni all'avanguardia, con un tasso di successo in uno studio utente superiore al 92% nelle attività di generazione 3D rispetto a diversi dei più recenti modelli generativi 3D feed-forward.
English
Generating high-quality 3D content from text, single images, or sparse view images remains a challenging task with broad applications.Existing methods typically employ multi-view diffusion models to synthesize multi-view images, followed by a feed-forward process for 3D reconstruction. However, these approaches are often constrained by a small and fixed number of input views, limiting their ability to capture diverse viewpoints and, even worse, leading to suboptimal generation results if the synthesized views are of poor quality. To address these limitations, we propose Flex3D, a novel two-stage framework capable of leveraging an arbitrary number of high-quality input views. The first stage consists of a candidate view generation and curation pipeline. We employ a fine-tuned multi-view image diffusion model and a video diffusion model to generate a pool of candidate views, enabling a rich representation of the target 3D object. Subsequently, a view selection pipeline filters these views based on quality and consistency, ensuring that only the high-quality and reliable views are used for reconstruction. In the second stage, the curated views are fed into a Flexible Reconstruction Model (FlexRM), built upon a transformer architecture that can effectively process an arbitrary number of inputs. FlemRM directly outputs 3D Gaussian points leveraging a tri-plane representation, enabling efficient and detailed 3D generation. Through extensive exploration of design and training strategies, we optimize FlexRM to achieve superior performance in both reconstruction and generation tasks. Our results demonstrate that Flex3D achieves state-of-the-art performance, with a user study winning rate of over 92% in 3D generation tasks when compared to several of the latest feed-forward 3D generative models.
PDF205November 13, 2024