BlenderAlchemy: Edición de gráficos 3D con modelos de visión y lenguaje

Resumen

El diseño gráfico es crucial para diversas aplicaciones, incluyendo la producción de películas y el diseño de videojuegos. Para crear una escena de alta calidad, los diseñadores suelen necesitar pasar horas en software como Blender, donde podrían tener que intercalar y repetir operaciones, como conectar nodos de materiales, cientos de veces. Además, objetivos de diseño ligeramente diferentes pueden requerir secuencias completamente distintas, lo que dificulta la automatización. En este artículo, proponemos un sistema que aprovecha los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés), como GPT-4V, para buscar de manera inteligente en el espacio de acciones de diseño y llegar a una solución que satisfaga la intención del usuario. Específicamente, diseñamos un generador de ediciones basado en visión y un evaluador de estados que trabajan juntos para encontrar la secuencia correcta de acciones que permita alcanzar el objetivo. Inspirados por el papel de la imaginación visual en el proceso de diseño humano, complementamos las capacidades de razonamiento visual de los VLMs con imágenes de referencia "imaginadas" generadas por modelos de generación de imágenes, proporcionando una base visual para descripciones de lenguaje abstracto. En este artículo, presentamos evidencia empírica que sugiere que nuestro sistema puede producir secuencias de edición en Blender simples pero tediosas para tareas como editar materiales procedimentales a partir de texto y/o imágenes de referencia, así como ajustar configuraciones de iluminación para renderizaciones de productos en escenas complejas.

English

Graphics design is important for various applications, including movie production and game design. To create a high-quality scene, designers usually need to spend hours in software like Blender, in which they might need to interleave and repeat operations, such as connecting material nodes, hundreds of times. Moreover, slightly different design goals may require completely different sequences, making automation difficult. In this paper, we propose a system that leverages Vision-Language Models (VLMs), like GPT-4V, to intelligently search the design action space to arrive at an answer that can satisfy a user's intent. Specifically, we design a vision-based edit generator and state evaluator to work together to find the correct sequence of actions to achieve the goal. Inspired by the role of visual imagination in the human design process, we supplement the visual reasoning capabilities of VLMs with "imagined" reference images from image-generation models, providing visual grounding of abstract language descriptions. In this paper, we provide empirical evidence suggesting our system can produce simple but tedious Blender editing sequences for tasks such as editing procedural materials from text and/or reference images, as well as adjusting lighting configurations for product renderings in complex scenes.

BlenderAlchemy: Edición de gráficos 3D con modelos de visión y lenguaje

BlenderAlchemy: Editing 3D Graphics with Vision-Language Models

Resumen

Support