BlenderAlchemy: Modifica della Grafica 3D con Modelli Visione-Linguaggio
BlenderAlchemy: Editing 3D Graphics with Vision-Language Models
April 26, 2024
Autori: Ian Huang, Guandao Yang, Leonidas Guibas
cs.AI
Abstract
La progettazione grafica è fondamentale per varie applicazioni, inclusa la produzione cinematografica e il design di giochi. Per creare una scena di alta qualità, i designer di solito devono trascorrere ore in software come Blender, in cui potrebbero dover intercalare e ripetere operazioni, come la connessione di nodi di materiale, centinaia di volte. Inoltre, obiettivi di design leggermente diversi possono richiedere sequenze completamente differenti, rendendo difficile l'automazione. In questo articolo, proponiamo un sistema che sfrutta i Modelli Visione-Linguaggio (VLMs), come GPT-4V, per esplorare in modo intelligente lo spazio delle azioni di design e arrivare a una soluzione che possa soddisfare l'intento dell'utente. Nello specifico, progettiamo un generatore di modifiche basato sulla visione e un valutatore di stato che lavorano insieme per trovare la sequenza corretta di azioni per raggiungere l'obiettivo. Ispirati dal ruolo dell'immaginazione visiva nel processo di design umano, integriamo le capacità di ragionamento visivo dei VLMs con immagini di riferimento "immaginate" da modelli di generazione di immagini, fornendo un ancoraggio visivo a descrizioni linguistiche astratte. In questo articolo, forniamo prove empiriche che suggeriscono come il nostro sistema possa produrre sequenze di editing in Blender semplici ma noiose per compiti come la modifica di materiali procedurali da testo e/o immagini di riferimento, nonché l'adeguamento delle configurazioni di illuminazione per rendering di prodotti in scene complesse.
English
Graphics design is important for various applications, including movie
production and game design. To create a high-quality scene, designers usually
need to spend hours in software like Blender, in which they might need to
interleave and repeat operations, such as connecting material nodes, hundreds
of times. Moreover, slightly different design goals may require completely
different sequences, making automation difficult. In this paper, we propose a
system that leverages Vision-Language Models (VLMs), like GPT-4V, to
intelligently search the design action space to arrive at an answer that can
satisfy a user's intent. Specifically, we design a vision-based edit generator
and state evaluator to work together to find the correct sequence of actions to
achieve the goal. Inspired by the role of visual imagination in the human
design process, we supplement the visual reasoning capabilities of VLMs with
"imagined" reference images from image-generation models, providing visual
grounding of abstract language descriptions. In this paper, we provide
empirical evidence suggesting our system can produce simple but tedious Blender
editing sequences for tasks such as editing procedural materials from text
and/or reference images, as well as adjusting lighting configurations for
product renderings in complex scenes.