ChatPaper.aiChatPaper

TAPESTRY: Von der Geometrie zum Erscheinungsbild durch konsistente Drehteller-Videos

TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos

March 18, 2026
Autoren: Yan Zeng, Haoran Jiang, Kaixin Yao, Qixuan Zhang, Longwen Zhang, Lan Xu, Jingyi Yu
cs.AI

Zusammenfassung

Die automatische Generierung fotorealistischer und selbstkonsistenter Oberflächen für texturlose 3D-Modelle ist eine zentrale Herausforderung in der digitalen Inhaltserstellung. Die Fortschritte bei großskaligen Videogenerierungsmodellen bieten einen naheliegenden Ansatz: die direkte Synthese von 360-Grad-Rundgangvideos (TTVs), die nicht nur als hochwertige dynamische Vorschau dienen können, sondern auch als Zwischendarstellung zur Steuerung von Textursynthese und neuronalem Rendering. Allerdings haben bestehende allgemeine Videodiffusionsmodelle Schwierigkeiten, strenge geometrische Konsistenz und Erscheinungsstabilität über den gesamten Blickwinkelbereich hinweg aufrechtzuerhalten, was ihre Ergebnisse für hochwertige 3D-Rekonstruktionen ungeeignet macht. Zu diesem Zweck stellen wir TAPESTRY vor, ein Framework zur Generierung hochauflösender TTVs, die durch explizite 3D-Geometrie konditioniert sind. Wir formulieren die Aufgabe der 3D-Erscheinungsgenerierung als ein geometrie-konditioniertes Videodiffusionsproblem: gegeben ein 3D-Netz, rendern und enkodieren wir zunächst multimodale geometrische Merkmale, um den Videogenerierungsprozess mit Pixelgenauigkeit zu steuern und so die Erstellung hochwertiger und konsistenter TTVs zu ermöglichen. Darauf aufbauend entwerfen wir auch eine Methode für nachgelagerte Rekonstruktionsaufgaben aus der TTV-Eingabe, die eine mehrstufige Pipeline mit 3D-bewusstem Inpainting umfasst. Durch Drehung des Modells und eine kontextbewusste Sekundärgenerierung vervollständigt diese Pipeline effektiv selbstverdeckte Bereiche, um eine vollständige Oberflächenabdeckung zu erreichen. Die von TAPESTRY generierten Videos sind nicht nur hochwertige dynamische Vorschauen, sondern dienen auch als zuverlässige, 3D-bewusste Zwischendarstellung, die nahtlos in UV-Texturen zurückprojiziert oder zur Überwachung neuronaler Rendering-Verfahren wie 3DGS verwendet werden kann. Dies ermöglicht die automatisierte Erstellung produktionsreifer, vollständiger 3D-Assets aus texturlosen Netzen. Experimentelle Ergebnisse zeigen, dass unsere Methode bestehende Ansätze sowohl in der Videokonsistenz als auch in der finalen Rekonstruktionsqualität übertrifft.
English
Automatically generating photorealistic and self-consistent appearances for untextured 3D models is a critical challenge in digital content creation. The advancement of large-scale video generation models offers a natural approach: directly synthesizing 360-degree turntable videos (TTVs), which can serve not only as high-quality dynamic previews but also as an intermediate representation to drive texture synthesis and neural rendering. However, existing general-purpose video diffusion models struggle to maintain strict geometric consistency and appearance stability across the full range of views, making their outputs ill-suited for high-quality 3D reconstruction. To this end, we introduce TAPESTRY, a framework for generating high-fidelity TTVs conditioned on explicit 3D geometry. We reframe the 3D appearance generation task as a geometry-conditioned video diffusion problem: given a 3D mesh, we first render and encode multi-modal geometric features to constrain the video generation process with pixel-level precision, thereby enabling the creation of high-quality and consistent TTVs. Building upon this, we also design a method for downstream reconstruction tasks from the TTV input, featuring a multi-stage pipeline with 3D-Aware Inpainting. By rotating the model and performing a context-aware secondary generation, this pipeline effectively completes self-occluded regions to achieve full surface coverage. The videos generated by TAPESTRY are not only high-quality dynamic previews but also serve as a reliable, 3D-aware intermediate representation that can be seamlessly back-projected into UV textures or used to supervise neural rendering methods like 3DGS. This enables the automated creation of production-ready, complete 3D assets from untextured meshes. Experimental results demonstrate that our method outperforms existing approaches in both video consistency and final reconstruction quality.
PDF21March 24, 2026