Aladdin: Zero-Shot Hallucinatie van Gestileerde 3D-Assets uit Abstracte Scènebeschrijvingen

Samenvatting

Wat bepaalt de "sfeer" van een bepaalde scène? Wat zou men moeten aantreffen in "een drukke, vuile stadstraat", "een idyllisch platteland", of "een plaats delict in een verlaten woonkamer"? De vertaling van abstracte scènebeschrijvingen naar gestileerde scène-elementen kan niet op algemene wijze worden uitgevoerd door bestaande systemen die getraind zijn op rigide en beperkte binnendatasets. In dit artikel stellen we voor om de kennis die vastgelegd is in foundation models te benutten om deze vertaling te realiseren. We presenteren een systeem dat kan dienen als een hulpmiddel om gestileerde assets te genereren voor 3D-scènes die beschreven worden door een korte zin, zonder dat het nodig is om de objecten in de scène op te sommen of instructies te geven over hun uiterlijk. Bovendien is het robuust tegen open-wereldconcepten op een manier waarop traditionele methoden die getraind zijn op beperkte data dat niet zijn, wat meer creatieve vrijheid biedt aan de 3D-kunstenaar. Ons systeem demonstreert dit door gebruik te maken van een foundation model "team" dat bestaat uit een groot taalmodel, een visie-taalmodel en verschillende beelddiffusiemodellen, die communiceren via een interpreteerbare en door de gebruiker bewerkbare tussenliggende representatie, waardoor meer veelzijdige en controleerbare generatie van gestileerde assets mogelijk wordt voor 3D-kunstenaars. We introduceren nieuwe metrieken voor deze taak en tonen via menselijke evaluaties aan dat in 91% van de gevallen de uitvoer van ons systeem als trouwer wordt beoordeeld aan de semantiek van de ingevoerde scènebeschrijving dan de baseline, wat het potentieel van deze aanpak benadrukt om het 3D-contentcreatieproces voor 3D-kunstenaars radicaal te versnellen.

English

What constitutes the "vibe" of a particular scene? What should one find in "a busy, dirty city street", "an idyllic countryside", or "a crime scene in an abandoned living room"? The translation from abstract scene descriptions to stylized scene elements cannot be done with any generality by extant systems trained on rigid and limited indoor datasets. In this paper, we propose to leverage the knowledge captured by foundation models to accomplish this translation. We present a system that can serve as a tool to generate stylized assets for 3D scenes described by a short phrase, without the need to enumerate the objects to be found within the scene or give instructions on their appearance. Additionally, it is robust to open-world concepts in a way that traditional methods trained on limited data are not, affording more creative freedom to the 3D artist. Our system demonstrates this using a foundation model "team" composed of a large language model, a vision-language model and several image diffusion models, which communicate using an interpretable and user-editable intermediate representation, thus allowing for more versatile and controllable stylized asset generation for 3D artists. We introduce novel metrics for this task, and show through human evaluations that in 91% of the cases, our system outputs are judged more faithful to the semantics of the input scene description than the baseline, thus highlighting the potential of this approach to radically accelerate the 3D content creation process for 3D artists.

Aladdin: Zero-Shot Hallucinatie van Gestileerde 3D-Assets uit Abstracte Scènebeschrijvingen

Aladdin: Zero-Shot Hallucination of Stylized 3D Assets from Abstract Scene Descriptions

Samenvatting

Support