LAVE: Asistencia de Agentes Potenciados por LLM y Aumento del Lenguaje para la Edición de Video
LAVE: LLM-Powered Agent Assistance and Language Augmentation for Video Editing
February 15, 2024
Autores: Bryan Wang, Yuliang Li, Zhaoyang Lv, Haijun Xia, Yan Xu, Raj Sodhi
cs.AI
Resumen
La creación de videos ha ganado popularidad, aunque la experiencia y el esfuerzo requeridos para la edición suelen representar barreras para los principiantes. En este artículo, exploramos la integración de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en el flujo de trabajo de edición de videos para reducir estas barreras. Nuestra visión de diseño se materializa en LAVE, un sistema novedoso que ofrece asistencia mediante agentes impulsados por LLMs y funciones de edición aumentadas por lenguaje. LAVE genera automáticamente descripciones en lenguaje natural para el material del usuario, lo que sirve como base para permitir que el LLM procese los videos y asista en tareas de edición. Cuando el usuario proporciona objetivos de edición, el agente planifica y ejecuta acciones relevantes para cumplirlos. Además, LAVE permite a los usuarios editar videos ya sea mediante el agente o mediante manipulación directa de la interfaz de usuario, ofreciendo flexibilidad y permitiendo el refinamiento manual de las acciones del agente. Nuestro estudio de usuarios, que incluyó a ocho participantes desde principiantes hasta editores competentes, demostró la efectividad de LAVE. Los resultados también arrojan luz sobre las percepciones de los usuarios respecto al paradigma de edición asistida por LLMs propuesto y su impacto en la creatividad y el sentido de co-creación de los usuarios. Basándonos en estos hallazgos, proponemos implicaciones de diseño para informar el desarrollo futuro de la edición de contenido asistida por agentes.
English
Video creation has become increasingly popular, yet the expertise and effort
required for editing often pose barriers to beginners. In this paper, we
explore the integration of large language models (LLMs) into the video editing
workflow to reduce these barriers. Our design vision is embodied in LAVE, a
novel system that provides LLM-powered agent assistance and language-augmented
editing features. LAVE automatically generates language descriptions for the
user's footage, serving as the foundation for enabling the LLM to process
videos and assist in editing tasks. When the user provides editing objectives,
the agent plans and executes relevant actions to fulfill them. Moreover, LAVE
allows users to edit videos through either the agent or direct UI manipulation,
providing flexibility and enabling manual refinement of agent actions. Our user
study, which included eight participants ranging from novices to proficient
editors, demonstrated LAVE's effectiveness. The results also shed light on user
perceptions of the proposed LLM-assisted editing paradigm and its impact on
users' creativity and sense of co-creation. Based on these findings, we propose
design implications to inform the future development of agent-assisted content
editing.