VideoWebArena: Evaluando Agentes Multimodales de Largo Contexto con Video en la Comprendiendo Tareas Web
VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks
October 24, 2024
Autores: Lawrence Jang, Yinheng Li, Charles Ding, Justin Lin, Paul Pu Liang, Dan Zhao, Rogerio Bonatti, Kazuhito Koishida
cs.AI
Resumen
Los videos suelen utilizarse para aprender o extraer la información necesaria para completar tareas de formas diferentes a las que solo el texto y las imágenes estáticas pueden proporcionar. Sin embargo, muchos benchmarks existentes de agentes descuidan la comprensión de videos de largo contexto, centrándose en cambio en entradas de texto o imágenes estáticas. Para cerrar esta brecha, presentamos VideoWebArena (VideoWA), un benchmark para evaluar las capacidades de agentes multimodales de largo contexto en la comprensión de videos. VideoWA consta de 2,021 tareas de agentes web basadas en tutoriales de video creados manualmente, que en total suman casi cuatro horas de contenido. Para nuestro benchmark, definimos una taxonomía de tareas de agentes basadas en videos de largo contexto con dos áreas principales de enfoque: retención de habilidades y retención de hechos. Mientras que las tareas de retención de habilidades evalúan si un agente puede utilizar una demostración humana dada para completar una tarea eficientemente, la tarea de retención de hechos evalúa si un agente puede recuperar información relevante para la instrucción de un video para completar una tarea. Encontramos que el mejor modelo logra un 13.3% de éxito en tareas de retención de hechos y un 45.8% en pares de preguntas y respuestas de retención de hechos, muy por debajo del rendimiento humano que es del 73.9% y 79.3%, respectivamente. En tareas de retención de habilidades, los modelos de largo contexto tienen un peor rendimiento con tutoriales que sin ellos, mostrando una disminución del rendimiento del 5% en tareas de WebArena y del 10.3% en tareas de VisualWebArena. Nuestro trabajo destaca la necesidad de mejorar las habilidades agentes de modelos multimodales de largo contexto y proporciona una plataforma de pruebas para el desarrollo futuro con agentes de video de largo contexto.
English
Videos are often used to learn or extract the necessary information to
complete tasks in ways different than what text and static imagery alone can
provide. However, many existing agent benchmarks neglect long-context video
understanding, instead focusing on text or static image inputs. To bridge this
gap, we introduce VideoWebArena (VideoWA), a benchmark for evaluating the
capabilities of long-context multimodal agents for video understanding. VideoWA
consists of 2,021 web agent tasks based on manually crafted video tutorials,
which total almost four hours of content. For our benchmark, we define a
taxonomy of long-context video-based agent tasks with two main areas of focus:
skill retention and factual retention. While skill retention tasks evaluate
whether an agent can use a given human demonstration to complete a task
efficiently, the factual retention task evaluates whether an agent can retrieve
instruction-relevant information from a video to complete a task. We find that
the best model achieves 13.3% success on factual retention tasks and 45.8% on
factual retention QA pairs, far below human performance at 73.9% and 79.3%,
respectively. On skill retention tasks, long-context models perform worse with
tutorials than without, exhibiting a 5% performance decrease in WebArena tasks
and a 10.3% decrease in VisualWebArena tasks. Our work highlights the need to
improve the agentic abilities of long-context multimodal models and provides a
testbed for future development with long-context video agents.Summary
AI-Generated Summary