TAPESTRY: От геометрии к внешнему виду через согласованные видео на поворотном столе
TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos
March 18, 2026
Авторы: Yan Zeng, Haoran Jiang, Kaixin Yao, Qixuan Zhang, Longwen Zhang, Lan Xu, Jingyi Yu
cs.AI
Аннотация
Автоматическое создание фотореалистичных и самосогласованных текстур для нетекстурированных 3D-моделей является ключевой задачей в производстве цифрового контента. Развитие моделей генерации видео в больших масштабах предлагает естественный подход: прямое синтезирование 360-градусных видео вращения объекта (turntable videos, TTV), которые могут служить не только в качестве высококачественных динамических превью, но и как промежуточное представление для управления синтезом текстур и нейронным рендерингом. Однако существующие универсальные диффузионные модели видео испытывают трудности с поддержанием строгой геометрической согласованности и стабильности внешнего вида на всех углах обзора, что делает их выходные данные непригодными для высококачественной 3D-реконструкции.
В связи с этим мы представляем TAPESTRY — фреймворк для генерации TTV высокой точности, управляемой явной 3D-геометрией. Мы переосмысливаем задачу генерации 3D-внешнего вида как проблему диффузии видео с условием на геометрию: для заданного 3D-меша мы сначала рендерим и кодируем мультимодальные геометрические признаки, чтобы ограничить процесс генерации видео с точностью на уровне пикселей, что позволяет создавать высококачественные и согласованные TTV. На основе этого мы также разрабатываем метод для последующих задач реконструкции из TTV, включающий многоэтапный конвейер с 3D-осознанным инпейнтингом. Путем вращения модели и выполнения контекстно-зависимой вторичной генерации этот конвейер эффективно заполняет самоокклюзированные области для достижения полного покрытия поверхности.
Видео, сгенерированные TAPESTRY, являются не только высококачественными динамическими превью, но и служат надежным, 3D-осознанным промежуточным представлением, которое может быть бесшовно обратно спроецировано в UV-текстуры или использовано для обучения методов нейронного рендеринга, таких как 3DGS. Это позволяет автоматизировать создание готовых к использованию полных 3D-ассетов из нетекстурированных мешей. Результаты экспериментов демонстрируют, что наш метод превосходит существующие подходы как по согласованности видео, так и по итоговому качеству реконструкции.
English
Automatically generating photorealistic and self-consistent appearances for untextured 3D models is a critical challenge in digital content creation. The advancement of large-scale video generation models offers a natural approach: directly synthesizing 360-degree turntable videos (TTVs), which can serve not only as high-quality dynamic previews but also as an intermediate representation to drive texture synthesis and neural rendering. However, existing general-purpose video diffusion models struggle to maintain strict geometric consistency and appearance stability across the full range of views, making their outputs ill-suited for high-quality 3D reconstruction. To this end, we introduce TAPESTRY, a framework for generating high-fidelity TTVs conditioned on explicit 3D geometry. We reframe the 3D appearance generation task as a geometry-conditioned video diffusion problem: given a 3D mesh, we first render and encode multi-modal geometric features to constrain the video generation process with pixel-level precision, thereby enabling the creation of high-quality and consistent TTVs. Building upon this, we also design a method for downstream reconstruction tasks from the TTV input, featuring a multi-stage pipeline with 3D-Aware Inpainting. By rotating the model and performing a context-aware secondary generation, this pipeline effectively completes self-occluded regions to achieve full surface coverage. The videos generated by TAPESTRY are not only high-quality dynamic previews but also serve as a reliable, 3D-aware intermediate representation that can be seamlessly back-projected into UV textures or used to supervise neural rendering methods like 3DGS. This enables the automated creation of production-ready, complete 3D assets from untextured meshes. Experimental results demonstrate that our method outperforms existing approaches in both video consistency and final reconstruction quality.