TAPESTRY: De la geometría a la apariencia mediante vídeos de giro consistentes
TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos
March 18, 2026
Autores: Yan Zeng, Haoran Jiang, Kaixin Yao, Qixuan Zhang, Longwen Zhang, Lan Xu, Jingyi Yu
cs.AI
Resumen
La generación automática de apariencias fotorrealistas y autoconsistentes para modelos 3D sin texturizar es un desafío crítico en la creación de contenido digital. El avance de los modelos de generación de vídeo a gran escala ofrece un enfoque natural: sintetizar directamente vídeos giratorios de 360 grados (TTV, por sus siglas en inglés), que pueden servir no solo como vistas previas dinámicas de alta calidad, sino también como una representación intermedia para impulsar la síntesis de texturas y el renderizado neuronal. Sin embargo, los modelos de difusión de vídeo de propósito general existentes tienen dificultades para mantener una coherencia geométrica estricta y una estabilidad de apariencia en todo el rango de vistas, lo que hace que sus resultados no sean adecuados para una reconstrucción 3D de alta calidad. Para ello, presentamos TAPESTRY, un marco para generar TTV de alta fidelidad condicionados por una geometría 3D explícita. Replanteamos la tarea de generación de apariencia 3D como un problema de difusión de vídeo condicionado por geometría: dado una malla 3D, primero renderizamos y codificamos características geométricas multimodales para restringir el proceso de generación de vídeo con precisión a nivel de píxel, permitiendo así la creación de TTV de alta calidad y consistentes. Sobre esta base, también diseñamos un método para tareas de reconstrucción posteriores a partir de la entrada TTV, que presenta un pipeline multietapa con Inpainting Consciente de la 3D. Al rotar el modelo y realizar una generación secundaria consciente del contexto, este pipeline completa eficazmente las regiones auto-ocluidas para lograr una cobertura superficial completa. Los vídeos generados por TAPESTRY no solo son vistas previas dinámicas de alta calidad, sino que también sirven como una representación intermedia confiable y consciente de la 3D que puede reproyectarse perfectamente en texturas UV o utilizarse para supervisar métodos de renderizado neuronal como 3DGS. Esto permite la creación automatizada de activos 3D completos y listos para producción a partir de mallas sin texturizar. Los resultados experimentales demuestran que nuestro método supera a los enfoques existentes tanto en la consistencia del vídeo como en la calidad final de la reconstrucción.
English
Automatically generating photorealistic and self-consistent appearances for untextured 3D models is a critical challenge in digital content creation. The advancement of large-scale video generation models offers a natural approach: directly synthesizing 360-degree turntable videos (TTVs), which can serve not only as high-quality dynamic previews but also as an intermediate representation to drive texture synthesis and neural rendering. However, existing general-purpose video diffusion models struggle to maintain strict geometric consistency and appearance stability across the full range of views, making their outputs ill-suited for high-quality 3D reconstruction. To this end, we introduce TAPESTRY, a framework for generating high-fidelity TTVs conditioned on explicit 3D geometry. We reframe the 3D appearance generation task as a geometry-conditioned video diffusion problem: given a 3D mesh, we first render and encode multi-modal geometric features to constrain the video generation process with pixel-level precision, thereby enabling the creation of high-quality and consistent TTVs. Building upon this, we also design a method for downstream reconstruction tasks from the TTV input, featuring a multi-stage pipeline with 3D-Aware Inpainting. By rotating the model and performing a context-aware secondary generation, this pipeline effectively completes self-occluded regions to achieve full surface coverage. The videos generated by TAPESTRY are not only high-quality dynamic previews but also serve as a reliable, 3D-aware intermediate representation that can be seamlessly back-projected into UV textures or used to supervise neural rendering methods like 3DGS. This enables the automated creation of production-ready, complete 3D assets from untextured meshes. Experimental results demonstrate that our method outperforms existing approaches in both video consistency and final reconstruction quality.