BlenderAlchemy: Edición de gráficos 3D con modelos de visión y lenguaje
BlenderAlchemy: Editing 3D Graphics with Vision-Language Models
April 26, 2024
Autores: Ian Huang, Guandao Yang, Leonidas Guibas
cs.AI
Resumen
El diseño gráfico es crucial para diversas aplicaciones, incluyendo la producción de películas y el diseño de videojuegos. Para crear una escena de alta calidad, los diseñadores suelen necesitar pasar horas en software como Blender, donde podrían tener que intercalar y repetir operaciones, como conectar nodos de materiales, cientos de veces. Además, objetivos de diseño ligeramente diferentes pueden requerir secuencias completamente distintas, lo que dificulta la automatización. En este artículo, proponemos un sistema que aprovecha los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés), como GPT-4V, para buscar de manera inteligente en el espacio de acciones de diseño y llegar a una solución que satisfaga la intención del usuario. Específicamente, diseñamos un generador de ediciones basado en visión y un evaluador de estados que trabajan juntos para encontrar la secuencia correcta de acciones que permita alcanzar el objetivo. Inspirados por el papel de la imaginación visual en el proceso de diseño humano, complementamos las capacidades de razonamiento visual de los VLMs con imágenes de referencia "imaginadas" generadas por modelos de generación de imágenes, proporcionando una base visual para descripciones de lenguaje abstracto. En este artículo, presentamos evidencia empírica que sugiere que nuestro sistema puede producir secuencias de edición en Blender simples pero tediosas para tareas como editar materiales procedimentales a partir de texto y/o imágenes de referencia, así como ajustar configuraciones de iluminación para renderizaciones de productos en escenas complejas.
English
Graphics design is important for various applications, including movie
production and game design. To create a high-quality scene, designers usually
need to spend hours in software like Blender, in which they might need to
interleave and repeat operations, such as connecting material nodes, hundreds
of times. Moreover, slightly different design goals may require completely
different sequences, making automation difficult. In this paper, we propose a
system that leverages Vision-Language Models (VLMs), like GPT-4V, to
intelligently search the design action space to arrive at an answer that can
satisfy a user's intent. Specifically, we design a vision-based edit generator
and state evaluator to work together to find the correct sequence of actions to
achieve the goal. Inspired by the role of visual imagination in the human
design process, we supplement the visual reasoning capabilities of VLMs with
"imagined" reference images from image-generation models, providing visual
grounding of abstract language descriptions. In this paper, we provide
empirical evidence suggesting our system can produce simple but tedious Blender
editing sequences for tasks such as editing procedural materials from text
and/or reference images, as well as adjusting lighting configurations for
product renderings in complex scenes.Summary
AI-Generated Summary