TAPESTRY: Van geometrie naar uiterlijk via consistente draaitafelvideo's
TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos
March 18, 2026
Auteurs: Yan Zeng, Haoran Jiang, Kaixin Yao, Qixuan Zhang, Longwen Zhang, Lan Xu, Jingyi Yu
cs.AI
Samenvatting
Het automatisch genereren van fotorealistische en zelfconsistente verschijningen voor ongetextureerde 3D-modellen is een cruciale uitdaging in digitale contentcreatie. De vooruitgang in grootschalige videogeneratiemodellen biedt een natuurlijke aanpak: het direct synthetiseren van 360-graden draaitafelvideo's (TTV's), die niet alleen kunnen dienen als hoogwaardige dynamische voorvertoningen, maar ook als een intermediaire representatie om texturesynthese en neurale rendering aan te sturen. Echter, bestaande algemene videodiffusiemodellen hebben moeite om strikte geometrische consistentie en verschijningsstabiliteit over het volledige gezichtsveld te behouden, waardoor hun uitvoer ongeschikt is voor hoogwaardige 3D-reconstructie. Daarom introduceren wij TAPESTRY, een raamwerk voor het genereren van hoogfideliteit TTV's, geconditioneerd op expliciete 3D-geometrie. Wij herformuleren de taak van 3D-verschijningsgeneratie als een geometrie-geconditioneerd videodiffusieprobleem: gegeven een 3D-mesh, renderen en encoderen wij eerst multimodale geometrische kenmerken om het videogeneratieproces te sturen met pixelprecisie, waardoor de creatie van hoogwaardige en consistente TTV's mogelijk wordt. Hierop voortbouwend, ontwerpen wij ook een methode voor downstream-reconstructietaken vanuit de TTV-input, met een meerfasige pijplijn met 3D-bewust Inpainting. Door het model te roteren en een contextbewuste secundaire generatie uit te voeren, voltooit deze pijplijn effectief zelf-occluded regio's om volledige oppervlaktedekking te bereiken. De door TAPESTRY gegenereerde video's zijn niet alleen hoogwaardige dynamische voorvertoningen, maar dienen ook als een betrouwbare, 3D-bewuste intermediaire representatie die naadloos kan worden teruggeprojecteerd in UV-textures of gebruikt kan worden om neurale renderingsmethoden zoals 3DGS te superviseren. Dit maakt de geautomatiseerde creatie van productieklare, complete 3D-assets vanuit ongetextureerde meshes mogelijk. Experimentele resultaten tonen aan dat onze methode bestaande benaderingen overtreft in zowel videoconsistentie als uiteindelijke reconstructiekwaliteit.
English
Automatically generating photorealistic and self-consistent appearances for untextured 3D models is a critical challenge in digital content creation. The advancement of large-scale video generation models offers a natural approach: directly synthesizing 360-degree turntable videos (TTVs), which can serve not only as high-quality dynamic previews but also as an intermediate representation to drive texture synthesis and neural rendering. However, existing general-purpose video diffusion models struggle to maintain strict geometric consistency and appearance stability across the full range of views, making their outputs ill-suited for high-quality 3D reconstruction. To this end, we introduce TAPESTRY, a framework for generating high-fidelity TTVs conditioned on explicit 3D geometry. We reframe the 3D appearance generation task as a geometry-conditioned video diffusion problem: given a 3D mesh, we first render and encode multi-modal geometric features to constrain the video generation process with pixel-level precision, thereby enabling the creation of high-quality and consistent TTVs. Building upon this, we also design a method for downstream reconstruction tasks from the TTV input, featuring a multi-stage pipeline with 3D-Aware Inpainting. By rotating the model and performing a context-aware secondary generation, this pipeline effectively completes self-occluded regions to achieve full surface coverage. The videos generated by TAPESTRY are not only high-quality dynamic previews but also serve as a reliable, 3D-aware intermediate representation that can be seamlessly back-projected into UV textures or used to supervise neural rendering methods like 3DGS. This enables the automated creation of production-ready, complete 3D assets from untextured meshes. Experimental results demonstrate that our method outperforms existing approaches in both video consistency and final reconstruction quality.