ChatPaper.aiChatPaper

ARTIC3D: Robustes Lernen artikulierter 3D-Formen aus verrauschten Web-Bildsammlungen

ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image Collections

June 7, 2023
Autoren: Chun-Han Yao, Amit Raj, Wei-Chih Hung, Yuanzhen Li, Michael Rubinstein, Ming-Hsuan Yang, Varun Jampani
cs.AI

Zusammenfassung

Die Schätzung von 3D-artikulierten Formen wie Tierkörpern aus monokularen Bildern ist aufgrund der Mehrdeutigkeiten von Kameraperspektive, Pose, Textur, Beleuchtung usw. inhärent schwierig. Wir schlagen ARTIC3D vor, ein selbstüberwachtes Framework zur Rekonstruktion von 3D-Formen pro Instanz aus einer spärlichen Bildsammlung in natürlicher Umgebung. Konkret basiert ARTIC3D auf einer skelettbasierten Oberflächendarstellung und wird weiterhin durch 2D-Diffusionspriors von Stable Diffusion geleitet. Zunächst verbessern wir die Eingabebilder durch Okklusionen/Abbrüche mittels 2D-Diffusion, um sauberere Maskenschätzungen und semantische Merkmale zu erhalten. Zweitens führen wir eine diffusionsgesteuerte 3D-Optimierung durch, um Form und Textur zu schätzen, die hochauflösend und den Eingabebildern treu sind. Wir schlagen auch eine neuartige Technik vor, um stabilere bildbezogene Gradienten über Diffusionsmodelle im Vergleich zu bestehenden Alternativen zu berechnen. Schließlich erzeugen wir realistische Animationen durch Feinabstimmung der gerenderten Form und Textur unter starren Teiltransformationen. Umfangreiche Auswertungen auf mehreren bestehenden Datensätzen sowie neu eingeführten verrauschten Web-Bildsammlungen mit Okklusionen und Abbrüchen zeigen, dass die ARTIC3D-Ergebnisse robuster gegenüber verrauschten Bildern sind, eine höhere Qualität in Bezug auf Form- und Texturdetails aufweisen und realistischer wirken, wenn sie animiert werden. Projektseite: https://chhankyao.github.io/artic3d/
English
Estimating 3D articulated shapes like animal bodies from monocular images is inherently challenging due to the ambiguities of camera viewpoint, pose, texture, lighting, etc. We propose ARTIC3D, a self-supervised framework to reconstruct per-instance 3D shapes from a sparse image collection in-the-wild. Specifically, ARTIC3D is built upon a skeleton-based surface representation and is further guided by 2D diffusion priors from Stable Diffusion. First, we enhance the input images with occlusions/truncation via 2D diffusion to obtain cleaner mask estimates and semantic features. Second, we perform diffusion-guided 3D optimization to estimate shape and texture that are of high-fidelity and faithful to input images. We also propose a novel technique to calculate more stable image-level gradients via diffusion models compared to existing alternatives. Finally, we produce realistic animations by fine-tuning the rendered shape and texture under rigid part transformations. Extensive evaluations on multiple existing datasets as well as newly introduced noisy web image collections with occlusions and truncation demonstrate that ARTIC3D outputs are more robust to noisy images, higher quality in terms of shape and texture details, and more realistic when animated. Project page: https://chhankyao.github.io/artic3d/
PDF40December 15, 2024