BlenderAlchemy: Modifica della Grafica 3D con Modelli Visione-Linguaggio

Abstract

La progettazione grafica è fondamentale per varie applicazioni, inclusa la produzione cinematografica e il design di giochi. Per creare una scena di alta qualità, i designer di solito devono trascorrere ore in software come Blender, in cui potrebbero dover intercalare e ripetere operazioni, come la connessione di nodi di materiale, centinaia di volte. Inoltre, obiettivi di design leggermente diversi possono richiedere sequenze completamente differenti, rendendo difficile l'automazione. In questo articolo, proponiamo un sistema che sfrutta i Modelli Visione-Linguaggio (VLMs), come GPT-4V, per esplorare in modo intelligente lo spazio delle azioni di design e arrivare a una soluzione che possa soddisfare l'intento dell'utente. Nello specifico, progettiamo un generatore di modifiche basato sulla visione e un valutatore di stato che lavorano insieme per trovare la sequenza corretta di azioni per raggiungere l'obiettivo. Ispirati dal ruolo dell'immaginazione visiva nel processo di design umano, integriamo le capacità di ragionamento visivo dei VLMs con immagini di riferimento "immaginate" da modelli di generazione di immagini, fornendo un ancoraggio visivo a descrizioni linguistiche astratte. In questo articolo, forniamo prove empiriche che suggeriscono come il nostro sistema possa produrre sequenze di editing in Blender semplici ma noiose per compiti come la modifica di materiali procedurali da testo e/o immagini di riferimento, nonché l'adeguamento delle configurazioni di illuminazione per rendering di prodotti in scene complesse.

English

Graphics design is important for various applications, including movie production and game design. To create a high-quality scene, designers usually need to spend hours in software like Blender, in which they might need to interleave and repeat operations, such as connecting material nodes, hundreds of times. Moreover, slightly different design goals may require completely different sequences, making automation difficult. In this paper, we propose a system that leverages Vision-Language Models (VLMs), like GPT-4V, to intelligently search the design action space to arrive at an answer that can satisfy a user's intent. Specifically, we design a vision-based edit generator and state evaluator to work together to find the correct sequence of actions to achieve the goal. Inspired by the role of visual imagination in the human design process, we supplement the visual reasoning capabilities of VLMs with "imagined" reference images from image-generation models, providing visual grounding of abstract language descriptions. In this paper, we provide empirical evidence suggesting our system can produce simple but tedious Blender editing sequences for tasks such as editing procedural materials from text and/or reference images, as well as adjusting lighting configurations for product renderings in complex scenes.

BlenderAlchemy: Modifica della Grafica 3D con Modelli Visione-Linguaggio

BlenderAlchemy: Editing 3D Graphics with Vision-Language Models

Abstract

Support