BlenderAlchemy: Редактирование 3D-графики с помощью моделей видео-языка
BlenderAlchemy: Editing 3D Graphics with Vision-Language Models
April 26, 2024
Авторы: Ian Huang, Guandao Yang, Leonidas Guibas
cs.AI
Аннотация
Графический дизайн важен для различных приложений, включая производство фильмов и разработку игр. Для создания сцены высокого качества дизайнерам обычно приходится тратить часы в программном обеспечении, таком как Blender, в котором им может потребоваться вставлять и повторять операции, такие как соединение материальных узлов, сотни раз. Более того, немного различные цели дизайна могут потребовать совершенно разных последовательностей, что затрудняет автоматизацию. В данной статье мы предлагаем систему, которая использует модели видение-язык (VLM), такие как GPT-4V, для интеллектуального поиска пространства действий дизайна для достижения ответа, который может удовлетворить намерения пользователя. Конкретно, мы разрабатываем генератор редактирования на основе зрения и оценщик состояния, чтобы работать вместе для нахождения правильной последовательности действий для достижения цели. Вдохновленные ролью визуального воображения в человеческом процессе дизайна, мы дополняем визуальные способности рассуждения VLM "воображаемыми" опорными изображениями из моделей генерации изображений, обеспечивая визуальное обоснование абстрактных описаний на языке. В данной статье мы предоставляем эмпирические данные, указывающие на то, что наша система способна создавать простые, но трудоемкие последовательности редактирования в Blender для задач, таких как редактирование процедурных материалов из текста и/или опорных изображений, а также настройка конфигураций освещения для визуализации продуктов в сложных сценах.
English
Graphics design is important for various applications, including movie
production and game design. To create a high-quality scene, designers usually
need to spend hours in software like Blender, in which they might need to
interleave and repeat operations, such as connecting material nodes, hundreds
of times. Moreover, slightly different design goals may require completely
different sequences, making automation difficult. In this paper, we propose a
system that leverages Vision-Language Models (VLMs), like GPT-4V, to
intelligently search the design action space to arrive at an answer that can
satisfy a user's intent. Specifically, we design a vision-based edit generator
and state evaluator to work together to find the correct sequence of actions to
achieve the goal. Inspired by the role of visual imagination in the human
design process, we supplement the visual reasoning capabilities of VLMs with
"imagined" reference images from image-generation models, providing visual
grounding of abstract language descriptions. In this paper, we provide
empirical evidence suggesting our system can produce simple but tedious Blender
editing sequences for tasks such as editing procedural materials from text
and/or reference images, as well as adjusting lighting configurations for
product renderings in complex scenes.Summary
AI-Generated Summary