ChatPaper.aiChatPaper

TAPESTRY: Dalla Geometria all'Aspetto Visivo tramite Video a Rotazione Continua

TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos

March 18, 2026
Autori: Yan Zeng, Haoran Jiang, Kaixin Yao, Qixuan Zhang, Longwen Zhang, Lan Xu, Jingyi Yu
cs.AI

Abstract

La generazione automatica di aspetti fotorealistici e autocoerenti per modelli 3D non texturizzati è una sfida cruciale nella creazione di contenuti digitali. I progressi nei modelli di generazione video su larga scala offrono un approccio naturale: la sintesi diretta di video a girotondo (TTV) a 360 gradi, che possono fungere non solo da anteprime dinamiche di alta qualità, ma anche da rappresentazione intermedia per guidare la sintesi delle texture e il rendering neurale. Tuttavia, gli attuali modelli di diffusione video generici faticano a mantenere una rigorosa coerenza geometrica e stabilità dell'aspetto attraverso l'intera gamma di visuali, rendendo i loro output inadatti per una ricostruzione 3D di alta qualità. A tal fine, presentiamo TAPESTRY, un framework per generare TTV ad alta fedeltà condizionati da geometria 3D esplicita. Riformuliamo il compito della generazione dell'aspetto 3D come un problema di diffusione video condizionato dalla geometria: dato una mesh 3D, prima renderizziamo e codifichiamo caratteristiche geometriche multimodali per vincolare il processo di generazione video con precisione a livello di pixel, permettendo così la creazione di TTV di alta qualità e coerenti. Sulla base di ciò, progettiamo anche un metodo per i compiti di ricostruzione a valle a partire dall'input TTV, che presenta una pipeline multi-stadio con Inpainting Consapevole del 3D. Ruotando il modello ed eseguendo una generazione secondaria context-aware, questa pipeline completa efficacemente le regioni auto-occluse per ottenere una copertura completa della superficie. I video generati da TAPESTRY non sono solo anteprime dinamiche di alta qualità, ma fungono anche da rappresentazione intermedia affidabile e consapevole del 3D, che può essere retroproiettata senza soluzione di continuità in texture UV o utilizzata per supervisionare metodi di rendering neurale come il 3DGS. Ciò consente la creazione automatizzata di asset 3D completi e pronti per la produzione a partire da mesh non texturizzate. I risultati sperimentali dimostrano che il nostro metodo supera gli approcci esistenti sia nella coerenza video che nella qualità della ricostruzione finale.
English
Automatically generating photorealistic and self-consistent appearances for untextured 3D models is a critical challenge in digital content creation. The advancement of large-scale video generation models offers a natural approach: directly synthesizing 360-degree turntable videos (TTVs), which can serve not only as high-quality dynamic previews but also as an intermediate representation to drive texture synthesis and neural rendering. However, existing general-purpose video diffusion models struggle to maintain strict geometric consistency and appearance stability across the full range of views, making their outputs ill-suited for high-quality 3D reconstruction. To this end, we introduce TAPESTRY, a framework for generating high-fidelity TTVs conditioned on explicit 3D geometry. We reframe the 3D appearance generation task as a geometry-conditioned video diffusion problem: given a 3D mesh, we first render and encode multi-modal geometric features to constrain the video generation process with pixel-level precision, thereby enabling the creation of high-quality and consistent TTVs. Building upon this, we also design a method for downstream reconstruction tasks from the TTV input, featuring a multi-stage pipeline with 3D-Aware Inpainting. By rotating the model and performing a context-aware secondary generation, this pipeline effectively completes self-occluded regions to achieve full surface coverage. The videos generated by TAPESTRY are not only high-quality dynamic previews but also serve as a reliable, 3D-aware intermediate representation that can be seamlessly back-projected into UV textures or used to supervise neural rendering methods like 3DGS. This enables the automated creation of production-ready, complete 3D assets from untextured meshes. Experimental results demonstrate that our method outperforms existing approaches in both video consistency and final reconstruction quality.
PDF22March 24, 2026