ChatPaper.aiChatPaper

TAPESTRY : De la géométrie à l'apparence via des vidéos tournantes cohérentes

TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos

March 18, 2026
Auteurs: Yan Zeng, Haoran Jiang, Kaixin Yao, Qixuan Zhang, Longwen Zhang, Lan Xu, Jingyi Yu
cs.AI

Résumé

La génération automatique d'apparences photoréalistes et auto-cohérentes pour des modèles 3D non texturés est un défi crucial dans la création de contenu numérique. Les progrès des modèles de génération de vidéos à grande échelle offrent une approche naturelle : synthétiser directement des vidéos de tourne-disque à 360 degrés (TTV), qui peuvent servir non seulement de prévisualisations dynamiques de haute qualité, mais aussi de représentation intermédiaire pour piloter la synthèse de textures et le rendu neuronal. Cependant, les modèles de diffusion vidéo généralistes existants peinent à maintenir une cohérence géométrique stricte et une stabilité d'apparence sur l'ensemble des points de vue, rendant leurs résultats inadaptés à une reconstruction 3D de haute qualité. Pour cela, nous présentons TAPESTRY, un cadre pour générer des TTV à haute fidélité conditionnés par une géométrie 3D explicite. Nous reformulons la tâche de génération d'apparence 3D comme un problème de diffusion vidéo conditionnée par la géométrie : étant donné un maillage 3D, nous calculons d'abord et encodons des caractéristiques géométriques multimodales pour contraindre le processus de génération vidéo avec une précision au niveau du pixel, permettant ainsi la création de TTV de haute qualité et cohérents. Sur cette base, nous concevons également une méthode pour les tâches de reconstruction en aval à partir de l'entrée TTV, comprenant un pipeline multi-étapes avec Inpainting Conscient de la 3D. En faisant tourner le modèle et en effectuant une génération secondaire contextuelle, ce pipeline complète efficacement les régions auto-occluses pour obtenir une couverture complète de la surface. Les vidéos générées par TAPESTRY sont non seulement des prévisualisations dynamiques de haute qualité, mais servent aussi de représentation intermédiaire fiable et consciente de la 3D, qui peut être rétro-projetée de manière transparente en textures UV ou utilisée pour superviser des méthodes de rendu neuronal comme le 3DGS. Cela permet la création automatisée d'actifs 3D complets et prêts pour la production à partir de maillages non texturés. Les résultats expérimentaux démontrent que notre méthode surpasse les approches existantes à la fois en cohérence vidéo et en qualité de reconstruction finale.
English
Automatically generating photorealistic and self-consistent appearances for untextured 3D models is a critical challenge in digital content creation. The advancement of large-scale video generation models offers a natural approach: directly synthesizing 360-degree turntable videos (TTVs), which can serve not only as high-quality dynamic previews but also as an intermediate representation to drive texture synthesis and neural rendering. However, existing general-purpose video diffusion models struggle to maintain strict geometric consistency and appearance stability across the full range of views, making their outputs ill-suited for high-quality 3D reconstruction. To this end, we introduce TAPESTRY, a framework for generating high-fidelity TTVs conditioned on explicit 3D geometry. We reframe the 3D appearance generation task as a geometry-conditioned video diffusion problem: given a 3D mesh, we first render and encode multi-modal geometric features to constrain the video generation process with pixel-level precision, thereby enabling the creation of high-quality and consistent TTVs. Building upon this, we also design a method for downstream reconstruction tasks from the TTV input, featuring a multi-stage pipeline with 3D-Aware Inpainting. By rotating the model and performing a context-aware secondary generation, this pipeline effectively completes self-occluded regions to achieve full surface coverage. The videos generated by TAPESTRY are not only high-quality dynamic previews but also serve as a reliable, 3D-aware intermediate representation that can be seamlessly back-projected into UV textures or used to supervise neural rendering methods like 3DGS. This enables the automated creation of production-ready, complete 3D assets from untextured meshes. Experimental results demonstrate that our method outperforms existing approaches in both video consistency and final reconstruction quality.
PDF21March 24, 2026