LAVE : Assistance par Agent Piloté par LLM et Augmentation Linguistique pour le Montage Vidéo
LAVE: LLM-Powered Agent Assistance and Language Augmentation for Video Editing
February 15, 2024
Auteurs: Bryan Wang, Yuliang Li, Zhaoyang Lv, Haijun Xia, Yan Xu, Raj Sodhi
cs.AI
Résumé
La création vidéo est devenue de plus en plus populaire, mais l'expertise et l'effort requis pour le montage constituent souvent des obstacles pour les débutants. Dans cet article, nous explorons l'intégration des grands modèles de langage (LLMs) dans le flux de travail de montage vidéo afin de réduire ces barrières. Notre vision de conception est incarnée par LAVE, un système novateur qui propose une assistance par agent alimenté par LLM et des fonctionnalités de montage enrichies par le langage. LAVE génère automatiquement des descriptions linguistiques pour les séquences de l'utilisateur, servant de base pour permettre au LLM de traiter les vidéos et d'assister dans les tâches de montage. Lorsque l'utilisateur fournit des objectifs de montage, l'agent planifie et exécute les actions pertinentes pour les atteindre. De plus, LAVE permet aux utilisateurs de monter des vidéos soit via l'agent, soit par manipulation directe de l'interface utilisateur, offrant ainsi une flexibilité et permettant un affinement manuel des actions de l'agent. Notre étude utilisateur, qui a inclus huit participants allant des novices aux monteurs expérimentés, a démontré l'efficacité de LAVE. Les résultats ont également mis en lumière les perceptions des utilisateurs concernant le paradigme de montage assisté par LLM proposé et son impact sur leur créativité et leur sentiment de co-création. Sur la base de ces constatations, nous proposons des implications de conception pour orienter le développement futur des systèmes de montage de contenu assistés par agent.
English
Video creation has become increasingly popular, yet the expertise and effort
required for editing often pose barriers to beginners. In this paper, we
explore the integration of large language models (LLMs) into the video editing
workflow to reduce these barriers. Our design vision is embodied in LAVE, a
novel system that provides LLM-powered agent assistance and language-augmented
editing features. LAVE automatically generates language descriptions for the
user's footage, serving as the foundation for enabling the LLM to process
videos and assist in editing tasks. When the user provides editing objectives,
the agent plans and executes relevant actions to fulfill them. Moreover, LAVE
allows users to edit videos through either the agent or direct UI manipulation,
providing flexibility and enabling manual refinement of agent actions. Our user
study, which included eight participants ranging from novices to proficient
editors, demonstrated LAVE's effectiveness. The results also shed light on user
perceptions of the proposed LLM-assisted editing paradigm and its impact on
users' creativity and sense of co-creation. Based on these findings, we propose
design implications to inform the future development of agent-assisted content
editing.Summary
AI-Generated Summary