ChatPaper.aiChatPaper

ARTIC3D: Обучение устойчивых артикулированных 3D-моделей на основе зашумленных коллекций веб-изображений

ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image Collections

June 7, 2023
Авторы: Chun-Han Yao, Amit Raj, Wei-Chih Hung, Yuanzhen Li, Michael Rubinstein, Ming-Hsuan Yang, Varun Jampani
cs.AI

Аннотация

Оценка 3D-артикулированных форм, таких как тела животных, по монохромным изображениям является сложной задачей из-за неоднозначностей, связанных с точкой зрения камеры, позой, текстурой, освещением и т.д. Мы предлагаем ARTIC3D, самообучаемую структуру для восстановления 3D-форм отдельных экземпляров из разреженной коллекции изображений в естественных условиях. В частности, ARTIC3D основана на скелетном представлении поверхности и дополнительно направляется 2D-диффузионными априорными данными из Stable Diffusion. Во-первых, мы улучшаем входные изображения, устраняя окклюзии и обрезки с помощью 2D-диффузии, чтобы получить более точные оценки масок и семантические признаки. Во-вторых, мы выполняем 3D-оптимизацию с использованием диффузионного руководства для оценки формы и текстуры, которые обладают высокой точностью и соответствуют входным изображениям. Мы также предлагаем новую технику для расчета более стабильных градиентов на уровне изображения с использованием диффузионных моделей по сравнению с существующими альтернативами. Наконец, мы создаем реалистичные анимации, дорабатывая визуализированную форму и текстуру при жестких преобразованиях частей. Обширные оценки на нескольких существующих наборах данных, а также на новых коллекциях зашумленных веб-изображений с окклюзиями и обрезками демонстрируют, что результаты ARTIC3D более устойчивы к зашумленным изображениям, имеют более высокое качество в плане деталей формы и текстуры и выглядят более реалистично при анимации. Страница проекта: https://chhankyao.github.io/artic3d/
English
Estimating 3D articulated shapes like animal bodies from monocular images is inherently challenging due to the ambiguities of camera viewpoint, pose, texture, lighting, etc. We propose ARTIC3D, a self-supervised framework to reconstruct per-instance 3D shapes from a sparse image collection in-the-wild. Specifically, ARTIC3D is built upon a skeleton-based surface representation and is further guided by 2D diffusion priors from Stable Diffusion. First, we enhance the input images with occlusions/truncation via 2D diffusion to obtain cleaner mask estimates and semantic features. Second, we perform diffusion-guided 3D optimization to estimate shape and texture that are of high-fidelity and faithful to input images. We also propose a novel technique to calculate more stable image-level gradients via diffusion models compared to existing alternatives. Finally, we produce realistic animations by fine-tuning the rendered shape and texture under rigid part transformations. Extensive evaluations on multiple existing datasets as well as newly introduced noisy web image collections with occlusions and truncation demonstrate that ARTIC3D outputs are more robust to noisy images, higher quality in terms of shape and texture details, and more realistic when animated. Project page: https://chhankyao.github.io/artic3d/
PDF40December 15, 2024