BlenderAlchemy : Édition de graphiques 3D avec des modèles vision-langage
BlenderAlchemy: Editing 3D Graphics with Vision-Language Models
April 26, 2024
Auteurs: Ian Huang, Guandao Yang, Leonidas Guibas
cs.AI
Résumé
La conception graphique est cruciale pour diverses applications, notamment la production cinématographique et la conception de jeux. Pour créer une scène de haute qualité, les designers doivent généralement passer des heures dans des logiciels comme Blender, où ils peuvent être amenés à intercaler et répéter des opérations, telles que la connexion de nœuds de matériaux, des centaines de fois. De plus, des objectifs de conception légèrement différents peuvent nécessiter des séquences complètement distinctes, rendant l'automatisation difficile. Dans cet article, nous proposons un système qui exploite les modèles vision-langage (VLMs), comme GPT-4V, pour explorer intelligemment l'espace des actions de conception afin d'arriver à une solution satisfaisant l'intention de l'utilisateur. Plus précisément, nous concevons un générateur de modifications basé sur la vision et un évaluateur d'état qui travaillent ensemble pour trouver la séquence d'actions correcte permettant d'atteindre l'objectif. Inspirés par le rôle de l'imagination visuelle dans le processus de conception humaine, nous complétons les capacités de raisonnement visuel des VLMs avec des images de référence "imaginées" générées par des modèles de génération d'images, fournissant ainsi un ancrage visuel aux descriptions langagières abstraites. Dans cet article, nous fournissons des preuves empiriques suggérant que notre système peut produire des séquences d'édition simples mais fastidieuses dans Blender pour des tâches telles que la modification de matériaux procéduraux à partir de textes et/ou d'images de référence, ainsi que l'ajustement des configurations d'éclairage pour des rendus de produits dans des scènes complexes.
English
Graphics design is important for various applications, including movie
production and game design. To create a high-quality scene, designers usually
need to spend hours in software like Blender, in which they might need to
interleave and repeat operations, such as connecting material nodes, hundreds
of times. Moreover, slightly different design goals may require completely
different sequences, making automation difficult. In this paper, we propose a
system that leverages Vision-Language Models (VLMs), like GPT-4V, to
intelligently search the design action space to arrive at an answer that can
satisfy a user's intent. Specifically, we design a vision-based edit generator
and state evaluator to work together to find the correct sequence of actions to
achieve the goal. Inspired by the role of visual imagination in the human
design process, we supplement the visual reasoning capabilities of VLMs with
"imagined" reference images from image-generation models, providing visual
grounding of abstract language descriptions. In this paper, we provide
empirical evidence suggesting our system can produce simple but tedious Blender
editing sequences for tasks such as editing procedural materials from text
and/or reference images, as well as adjusting lighting configurations for
product renderings in complex scenes.Summary
AI-Generated Summary