TAPESTRY: Da Geometria à Aparência através de Vídeos Consistentes de Mesa Giratória
TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos
March 18, 2026
Autores: Yan Zeng, Haoran Jiang, Kaixin Yao, Qixuan Zhang, Longwen Zhang, Lan Xu, Jingyi Yu
cs.AI
Resumo
A geração automática de aparências fotorrealistas e autoconsistentes para modelos 3D não texturizados é um desafio crítico na criação de conteúdo digital. O avanço dos modelos de geração de vídeo em larga escala oferece uma abordagem natural: sintetizar diretamente vídeos de mesa giratória de 360 graus (TTVs), que podem servir não apenas como pré-visualizações dinâmicas de alta qualidade, mas também como uma representação intermediária para orientar a síntese de texturas e a renderização neural. No entanto, os modelos de difusão de vídeo de propósito geral existentes lutam para manter uma consistência geométrica estrita e estabilidade de aparência em toda a gama de visualizações, tornando suas saídas inadequadas para reconstrução 3D de alta qualidade. Para isso, introduzimos o TAPESTRY, uma estrutura para gerar TTVs de alta fidelidade condicionados à geometria 3D explícita. Reformulamos a tarefa de geração de aparência 3D como um problema de difusão de vídeo condicionado por geometria: dado uma malha 3D, primeiro renderizamos e codificamos características geométricas multimodais para restringir o processo de geração de vídeo com precisão a nível de pixel, permitindo assim a criação de TTVs consistentes e de alta qualidade. Com base nisso, também projetamos um método para tarefas de reconstrução subsequentes a partir da entrada TTV, apresentando um pipeline multiestágio com Preenchimento Consciente da 3D. Ao girar o modelo e realizar uma geração secundária consciente do contexto, este pipeline preenche efetivamente as regiões auto-ocludidas para alcançar uma cobertura completa da superfície. Os vídeos gerados pelo TAPESTRY não são apenas pré-visualizações dinâmicas de alta qualidade, mas também servem como uma representação intermediária confiável e consciente da 3D que pode ser retroprojetada perfeitamente em texturas UV ou usada para supervisionar métodos de renderização neural como o 3DGS. Isso permite a criação automatizada de ativos 3D completos e prontos para produção a partir de malhas não texturizadas. Resultados experimentais demonstram que nosso método supera as abordagens existentes tanto na consistência do vídeo quanto na qualidade final da reconstrução.
English
Automatically generating photorealistic and self-consistent appearances for untextured 3D models is a critical challenge in digital content creation. The advancement of large-scale video generation models offers a natural approach: directly synthesizing 360-degree turntable videos (TTVs), which can serve not only as high-quality dynamic previews but also as an intermediate representation to drive texture synthesis and neural rendering. However, existing general-purpose video diffusion models struggle to maintain strict geometric consistency and appearance stability across the full range of views, making their outputs ill-suited for high-quality 3D reconstruction. To this end, we introduce TAPESTRY, a framework for generating high-fidelity TTVs conditioned on explicit 3D geometry. We reframe the 3D appearance generation task as a geometry-conditioned video diffusion problem: given a 3D mesh, we first render and encode multi-modal geometric features to constrain the video generation process with pixel-level precision, thereby enabling the creation of high-quality and consistent TTVs. Building upon this, we also design a method for downstream reconstruction tasks from the TTV input, featuring a multi-stage pipeline with 3D-Aware Inpainting. By rotating the model and performing a context-aware secondary generation, this pipeline effectively completes self-occluded regions to achieve full surface coverage. The videos generated by TAPESTRY are not only high-quality dynamic previews but also serve as a reliable, 3D-aware intermediate representation that can be seamlessly back-projected into UV textures or used to supervise neural rendering methods like 3DGS. This enables the automated creation of production-ready, complete 3D assets from untextured meshes. Experimental results demonstrate that our method outperforms existing approaches in both video consistency and final reconstruction quality.