Aladdin: Null-Shot-Halluzination von stilisierten 3D-Assets aus abstrakten Szenenbeschreibungen
Aladdin: Zero-Shot Hallucination of Stylized 3D Assets from Abstract Scene Descriptions
June 9, 2023
Autoren: Ian Huang, Vrishab Krishna, Omoruyi Atekha, Leonidas Guibas
cs.AI
Zusammenfassung
Was macht die „Atmosphäre“ einer bestimmten Szene aus? Was sollte man in einer „belebten, schmutzigen Stadtstraße“, einer „idyllischen Landschaft“ oder einem „Tatort in einem verlassenen Wohnzimmer“ finden? Die Übersetzung von abstrakten Szenenbeschreibungen in stilisierte Szenelemente kann von bestehenden Systemen, die auf starren und begrenzten Indoor-Datensätzen trainiert wurden, nicht allgemeingültig durchgeführt werden. In diesem Artikel schlagen wir vor, das Wissen, das von Foundation-Modellen erfasst wurde, zu nutzen, um diese Übersetzung zu erreichen. Wir präsentieren ein System, das als Werkzeug dienen kann, um stilisierte Assets für 3D-Szenen zu generieren, die durch eine kurze Phrase beschrieben werden, ohne die Objekte, die in der Szene zu finden sind, aufzählen oder Anweisungen zu ihrem Aussehen geben zu müssen. Darüber hinaus ist es robust gegenüber Open-World-Konzepten, auf eine Weise, wie es traditionelle Methoden, die auf begrenzten Daten trainiert wurden, nicht sind, und bietet dem 3D-Künstler mehr kreative Freiheit. Unser System demonstriert dies mit einem Foundation-Modell-„Team“, das aus einem großen Sprachmodell, einem Vision-Language-Modell und mehreren Bilddiffusionsmodellen besteht, die über eine interpretierbare und benutzerbearbeitbare Zwischendarstellung kommunizieren, wodurch eine vielseitigere und kontrollierbarere Erzeugung stilisierter Assets für 3D-Künstler ermöglicht wird. Wir führen neue Metriken für diese Aufgabe ein und zeigen durch menschliche Bewertungen, dass in 91 % der Fälle die Ausgaben unseres Systems als treuer zur Semantik der Eingabeszenenbeschreibung eingestuft werden als die der Baseline, was das Potenzial dieses Ansatzes zur radikalen Beschleunigung des 3D-Content-Erstellungsprozesses für 3D-Künstler unterstreicht.
English
What constitutes the "vibe" of a particular scene? What should one find in "a
busy, dirty city street", "an idyllic countryside", or "a crime scene in an
abandoned living room"? The translation from abstract scene descriptions to
stylized scene elements cannot be done with any generality by extant systems
trained on rigid and limited indoor datasets. In this paper, we propose to
leverage the knowledge captured by foundation models to accomplish this
translation. We present a system that can serve as a tool to generate stylized
assets for 3D scenes described by a short phrase, without the need to enumerate
the objects to be found within the scene or give instructions on their
appearance. Additionally, it is robust to open-world concepts in a way that
traditional methods trained on limited data are not, affording more creative
freedom to the 3D artist. Our system demonstrates this using a foundation model
"team" composed of a large language model, a vision-language model and several
image diffusion models, which communicate using an interpretable and
user-editable intermediate representation, thus allowing for more versatile and
controllable stylized asset generation for 3D artists. We introduce novel
metrics for this task, and show through human evaluations that in 91% of the
cases, our system outputs are judged more faithful to the semantics of the
input scene description than the baseline, thus highlighting the potential of
this approach to radically accelerate the 3D content creation process for 3D
artists.