BlenderAlchemy : Édition de graphiques 3D avec des modèles vision-langage

papers.abstract

La conception graphique est cruciale pour diverses applications, notamment la production cinématographique et la conception de jeux. Pour créer une scène de haute qualité, les designers doivent généralement passer des heures dans des logiciels comme Blender, où ils peuvent être amenés à intercaler et répéter des opérations, telles que la connexion de nœuds de matériaux, des centaines de fois. De plus, des objectifs de conception légèrement différents peuvent nécessiter des séquences complètement distinctes, rendant l'automatisation difficile. Dans cet article, nous proposons un système qui exploite les modèles vision-langage (VLMs), comme GPT-4V, pour explorer intelligemment l'espace des actions de conception afin d'arriver à une solution satisfaisant l'intention de l'utilisateur. Plus précisément, nous concevons un générateur de modifications basé sur la vision et un évaluateur d'état qui travaillent ensemble pour trouver la séquence d'actions correcte permettant d'atteindre l'objectif. Inspirés par le rôle de l'imagination visuelle dans le processus de conception humaine, nous complétons les capacités de raisonnement visuel des VLMs avec des images de référence "imaginées" générées par des modèles de génération d'images, fournissant ainsi un ancrage visuel aux descriptions langagières abstraites. Dans cet article, nous fournissons des preuves empiriques suggérant que notre système peut produire des séquences d'édition simples mais fastidieuses dans Blender pour des tâches telles que la modification de matériaux procéduraux à partir de textes et/ou d'images de référence, ainsi que l'ajustement des configurations d'éclairage pour des rendus de produits dans des scènes complexes.

English

Graphics design is important for various applications, including movie production and game design. To create a high-quality scene, designers usually need to spend hours in software like Blender, in which they might need to interleave and repeat operations, such as connecting material nodes, hundreds of times. Moreover, slightly different design goals may require completely different sequences, making automation difficult. In this paper, we propose a system that leverages Vision-Language Models (VLMs), like GPT-4V, to intelligently search the design action space to arrive at an answer that can satisfy a user's intent. Specifically, we design a vision-based edit generator and state evaluator to work together to find the correct sequence of actions to achieve the goal. Inspired by the role of visual imagination in the human design process, we supplement the visual reasoning capabilities of VLMs with "imagined" reference images from image-generation models, providing visual grounding of abstract language descriptions. In this paper, we provide empirical evidence suggesting our system can produce simple but tedious Blender editing sequences for tasks such as editing procedural materials from text and/or reference images, as well as adjusting lighting configurations for product renderings in complex scenes.

BlenderAlchemy : Édition de graphiques 3D avec des modèles vision-langage

BlenderAlchemy: Editing 3D Graphics with Vision-Language Models

papers.abstract

Support