ChatPaper.aiChatPaper

BlenderAlchemy: Editando Gráficos 3D com Modelos de Visão e Linguagem

BlenderAlchemy: Editing 3D Graphics with Vision-Language Models

April 26, 2024
Autores: Ian Huang, Guandao Yang, Leonidas Guibas
cs.AI

Resumo

O design gráfico é importante para diversas aplicações, incluindo produção de filmes e design de jogos. Para criar uma cena de alta qualidade, os designers geralmente precisam passar horas em softwares como o Blender, onde podem precisar intercalar e repetir operações, como conectar nós de materiais, centenas de vezes. Além disso, objetivos de design ligeiramente diferentes podem exigir sequências completamente distintas, tornando a automação difícil. Neste artigo, propomos um sistema que aproveita Modelos de Visão e Linguagem (VLMs), como o GPT-4V, para buscar de forma inteligente no espaço de ações de design e chegar a uma solução que possa satisfazer a intenção do usuário. Especificamente, projetamos um gerador de edições baseado em visão e um avaliador de estado que trabalham juntos para encontrar a sequência correta de ações para atingir o objetivo. Inspirados pelo papel da imaginação visual no processo de design humano, complementamos as capacidades de raciocínio visual dos VLMs com imagens de referência "imaginadas" geradas por modelos de geração de imagens, fornecendo uma base visual para descrições de linguagem abstratas. Neste artigo, apresentamos evidências empíricas sugerindo que nosso sistema pode produzir sequências simples, mas tediosas, de edições no Blender para tarefas como editar materiais procedurais a partir de texto e/ou imagens de referência, bem como ajustar configurações de iluminação para renderizações de produtos em cenas complexas.
English
Graphics design is important for various applications, including movie production and game design. To create a high-quality scene, designers usually need to spend hours in software like Blender, in which they might need to interleave and repeat operations, such as connecting material nodes, hundreds of times. Moreover, slightly different design goals may require completely different sequences, making automation difficult. In this paper, we propose a system that leverages Vision-Language Models (VLMs), like GPT-4V, to intelligently search the design action space to arrive at an answer that can satisfy a user's intent. Specifically, we design a vision-based edit generator and state evaluator to work together to find the correct sequence of actions to achieve the goal. Inspired by the role of visual imagination in the human design process, we supplement the visual reasoning capabilities of VLMs with "imagined" reference images from image-generation models, providing visual grounding of abstract language descriptions. In this paper, we provide empirical evidence suggesting our system can produce simple but tedious Blender editing sequences for tasks such as editing procedural materials from text and/or reference images, as well as adjusting lighting configurations for product renderings in complex scenes.
PDF192December 15, 2024