ChatPaper.aiChatPaper

Phidias: Ein generatives Modell zur Erstellung von 3D-Inhalten aus Text, Bild und 3D-Bedingungen mit referenzgestützter Diffusion

Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion

September 17, 2024
Autoren: Zhenwei Wang, Tengfei Wang, Zexin He, Gerhard Hancke, Ziwei Liu, Rynson W. H. Lau
cs.AI

Zusammenfassung

Bei der 3D-Modellierung verwenden Designer häufig ein vorhandenes 3D-Modell als Referenz, um neue Modelle zu erstellen. Diese Praxis hat die Entwicklung von Phidias inspiriert, einem neuartigen generativen Modell, das Diffusion für die referenzerweiterte 3D-Generierung verwendet. Anhand eines Bildes nutzt unsere Methode ein abgerufenes oder vom Benutzer bereitgestelltes 3D-Referenzmodell, um den Generierungsprozess zu lenken und somit die Generierungsqualität, Generalisierungsfähigkeit und Steuerbarkeit zu verbessern. Unser Modell integriert drei Schlüsselkomponenten: 1) Meta-ControlNet, das die Konditionierungsstärke dynamisch moduliert, 2) dynamische Referenzrouten, die Fehlausrichtungen zwischen dem Eingabebild und der 3D-Referenz mildern, und 3) selbstreferenzielle Erweiterungen, die ein selbstüberwachtes Training mit einem progressiven Lehrplan ermöglichen. Insgesamt führen diese Entwürfe zu einer klaren Verbesserung gegenüber bestehenden Methoden. Phidias etabliert einen einheitlichen Rahmen für die 3D-Generierung unter Verwendung von Text, Bild und 3D-Bedingungen mit vielseitigen Anwendungen.
English
In 3D modeling, designers often use an existing 3D model as a reference to create new ones. This practice has inspired the development of Phidias, a novel generative model that uses diffusion for reference-augmented 3D generation. Given an image, our method leverages a retrieved or user-provided 3D reference model to guide the generation process, thereby enhancing the generation quality, generalization ability, and controllability. Our model integrates three key components: 1) meta-ControlNet that dynamically modulates the conditioning strength, 2) dynamic reference routing that mitigates misalignment between the input image and 3D reference, and 3) self-reference augmentations that enable self-supervised training with a progressive curriculum. Collectively, these designs result in a clear improvement over existing methods. Phidias establishes a unified framework for 3D generation using text, image, and 3D conditions with versatile applications.

Summary

AI-Generated Summary

PDF282November 16, 2024