ChatPaper.aiChatPaper

360°-Rekonstruktion aus einem einzelnen Bild mittels Space Carved Outpainting

360^circ Reconstruction From a Single Image Using Space Carved Outpainting

September 19, 2023
Autoren: Nuri Ryu, Minsu Gong, Geonung Kim, Joo-Haeng Lee, Sunghyun Cho
cs.AI

Zusammenfassung

Wir stellen POP3D vor, ein neuartiges Framework, das aus einem einzelnen Bild ein vollständiges 360°-Ansicht-3D-Modell erzeugt. POP3D löst zwei wesentliche Probleme, die die Rekonstruktion aus einer einzigen Ansicht einschränken. Erstens bietet POP3D eine erhebliche Generalisierbarkeit für beliebige Kategorien, eine Eigenschaft, die frühere Methoden nur schwer erreichen konnten. Zweitens verbessert POP3D die Rekonstruktionsgenauigkeit und Natürlichkeit weiter, ein entscheidender Aspekt, bei dem aktuelle Arbeiten zurückbleiben. Unser Ansatz vereint die Stärken von vier Hauptkomponenten: (1) ein monokularer Tiefen- und Normalenprädiktor, der wichtige geometrische Hinweise vorhersagt, (2) eine Space-Carving-Methode, die in der Lage ist, die potenziell unsichtbaren Teile des Zielobjekts abzugrenzen, (3) ein generatives Modell, das auf einem groß angelegten Bilddatensatz vortrainiert wurde und unsichtbare Bereiche des Ziels vervollständigen kann, und (4) eine neuronale implizite Oberflächenrekonstruktionsmethode, die speziell für die Rekonstruktion von Objekten unter Verwendung von RGB-Bildern zusammen mit monokularen geometrischen Hinweisen entwickelt wurde. Die Kombination dieser Komponenten ermöglicht es POP3D, sich problemlos über verschiedene Bilder aus der realen Welt zu verallgemeinern und state-of-the-art Rekonstruktionen zu erzeugen, die ähnliche Arbeiten deutlich übertreffen. Projektseite: http://cg.postech.ac.kr/research/POP3D
English
We introduce POP3D, a novel framework that creates a full 360^circ-view 3D model from a single image. POP3D resolves two prominent issues that limit the single-view reconstruction. Firstly, POP3D offers substantial generalizability to arbitrary categories, a trait that previous methods struggle to achieve. Secondly, POP3D further improves reconstruction fidelity and naturalness, a crucial aspect that concurrent works fall short of. Our approach marries the strengths of four primary components: (1) a monocular depth and normal predictor that serves to predict crucial geometric cues, (2) a space carving method capable of demarcating the potentially unseen portions of the target object, (3) a generative model pre-trained on a large-scale image dataset that can complete unseen regions of the target, and (4) a neural implicit surface reconstruction method tailored in reconstructing objects using RGB images along with monocular geometric cues. The combination of these components enables POP3D to readily generalize across various in-the-wild images and generate state-of-the-art reconstructions, outperforming similar works by a significant margin. Project page: http://cg.postech.ac.kr/research/POP3D
PDF61December 15, 2024