Keyframer: Capacitando o Design de Animação com Modelos de Linguagem de Grande Escala
Keyframer: Empowering Animation Design using Large Language Models
February 8, 2024
Autores: Tiffany Tseng, Ruijia Cheng, Jeffrey Nichols
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm o potencial de impactar uma ampla gama de domínios criativos, mas a aplicação de LLMs à animação é pouco explorada e apresenta desafios novos, como a forma como os usuários podem descrever efetivamente o movimento em linguagem natural. Neste artigo, apresentamos o Keyframer, uma ferramenta de design para animar imagens estáticas (SVGs) com linguagem natural. Baseado em entrevistas com designers de animação e engenheiros profissionais, o Keyframer suporta a exploração e o refinamento de animações por meio da combinação de prompts e edição direta da saída gerada. O sistema também permite que os usuários solicitem variantes de design, apoiando a comparação e a ideação. Por meio de um estudo de usuário com 13 participantes, contribuímos com uma caracterização das estratégias de prompting dos usuários, incluindo uma taxonomia de tipos de prompts semânticos para descrever movimento e um estilo de prompting 'decomposto', onde os usuários adaptam continuamente seus objetivos em resposta à saída gerada. Compartilhamos como a edição direta, juntamente com o prompting, permite iterações além das interfaces de prompting único comuns em ferramentas generativas atuais. Por meio deste trabalho, propomos como os LLMs podem capacitar uma variedade de públicos a se envolverem com a criação de animações.
English
Large language models (LLMs) have the potential to impact a wide range of
creative domains, but the application of LLMs to animation is underexplored and
presents novel challenges such as how users might effectively describe motion
in natural language. In this paper, we present Keyframer, a design tool for
animating static images (SVGs) with natural language. Informed by interviews
with professional animation designers and engineers, Keyframer supports
exploration and refinement of animations through the combination of prompting
and direct editing of generated output. The system also enables users to
request design variants, supporting comparison and ideation. Through a user
study with 13 participants, we contribute a characterization of user prompting
strategies, including a taxonomy of semantic prompt types for describing motion
and a 'decomposed' prompting style where users continually adapt their goals in
response to generated output.We share how direct editing along with prompting
enables iteration beyond one-shot prompting interfaces common in generative
tools today. Through this work, we propose how LLMs might empower a range of
audiences to engage with animation creation.