Keyframer: Расширение возможностей анимационного дизайна с использованием больших языковых моделей
Keyframer: Empowering Animation Design using Large Language Models
February 8, 2024
Авторы: Tiffany Tseng, Ruijia Cheng, Jeffrey Nichols
cs.AI
Аннотация
Крупные языковые модели (LLM) обладают потенциалом для влияния на широкий спектр творческих областей, однако их применение в анимации остается малоизученным и сопряжено с новыми вызовами, такими как эффективное описание движения на естественном языке. В данной статье мы представляем Keyframer — инструмент для анимации статических изображений (SVG) с использованием естественного языка. Разработанный на основе интервью с профессиональными аниматорами и инженерами, Keyframer поддерживает исследование и уточнение анимаций за счет комбинации запросов и прямого редактирования сгенерированных результатов. Система также позволяет пользователям запрашивать варианты дизайна, способствуя сравнению и генерации идей. В ходе исследования с участием 13 человек мы выделяем характеристики стратегий запросов пользователей, включая таксономию семантических типов запросов для описания движения и "декомпозированный" стиль запросов, при котором пользователи постоянно адаптируют свои цели в ответ на сгенерированные результаты. Мы показываем, как прямое редактирование в сочетании с запросами позволяет выйти за рамки одношаговых интерфейсов, характерных для современных генеративных инструментов. В этой работе мы предлагаем, как LLM могут расширить возможности различных аудиторий для участия в создании анимации.
English
Large language models (LLMs) have the potential to impact a wide range of
creative domains, but the application of LLMs to animation is underexplored and
presents novel challenges such as how users might effectively describe motion
in natural language. In this paper, we present Keyframer, a design tool for
animating static images (SVGs) with natural language. Informed by interviews
with professional animation designers and engineers, Keyframer supports
exploration and refinement of animations through the combination of prompting
and direct editing of generated output. The system also enables users to
request design variants, supporting comparison and ideation. Through a user
study with 13 participants, we contribute a characterization of user prompting
strategies, including a taxonomy of semantic prompt types for describing motion
and a 'decomposed' prompting style where users continually adapt their goals in
response to generated output.We share how direct editing along with prompting
enables iteration beyond one-shot prompting interfaces common in generative
tools today. Through this work, we propose how LLMs might empower a range of
audiences to engage with animation creation.