ChatPaper.aiChatPaper

VideoWebArena: Avaliando Agentes Multimodais de Longo Contexto com Compreensão de Vídeo em Tarefas da Web

VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks

October 24, 2024
Autores: Lawrence Jang, Yinheng Li, Charles Ding, Justin Lin, Paul Pu Liang, Dan Zhao, Rogerio Bonatti, Kazuhito Koishida
cs.AI

Resumo

Os vídeos são frequentemente utilizados para aprender ou extrair as informações necessárias para completar tarefas de maneiras diferentes do que apenas texto e imagens estáticas podem fornecer. No entanto, muitos benchmarks de agentes existentes negligenciam a compreensão de vídeos de longo contexto, em vez disso, focando em entradas de texto ou imagens estáticas. Para preencher essa lacuna, apresentamos o VideoWebArena (VideoWA), um benchmark para avaliar as capacidades de agentes multimodais de longo contexto para compreensão de vídeos. O VideoWA é composto por 2.021 tarefas de agentes da web baseadas em tutoriais de vídeo criados manualmente, totalizando quase quatro horas de conteúdo. Para nosso benchmark, definimos uma taxonomia de tarefas de agentes baseadas em vídeos de longo contexto com dois principais focos: retenção de habilidades e retenção de fatos. Enquanto as tarefas de retenção de habilidades avaliam se um agente pode usar uma demonstração humana fornecida para completar uma tarefa de forma eficiente, a tarefa de retenção de fatos avalia se um agente pode recuperar informações relevantes para a instrução de um vídeo para completar uma tarefa. Descobrimos que o melhor modelo alcança 13,3% de sucesso em tarefas de retenção de fatos e 45,8% em pares de perguntas e respostas de retenção de fatos, muito abaixo do desempenho humano de 73,9% e 79,3%, respectivamente. Nas tarefas de retenção de habilidades, os modelos de longo contexto têm um desempenho pior com tutoriais do que sem eles, exibindo uma diminuição de desempenho de 5% nas tarefas do WebArena e uma diminuição de 10,3% nas tarefas do VisualWebArena. Nosso trabalho destaca a necessidade de melhorar as habilidades agentes de modelos multimodais de longo contexto e fornece uma plataforma de testes para desenvolvimentos futuros com agentes de vídeo de longo contexto.
English
Videos are often used to learn or extract the necessary information to complete tasks in ways different than what text and static imagery alone can provide. However, many existing agent benchmarks neglect long-context video understanding, instead focusing on text or static image inputs. To bridge this gap, we introduce VideoWebArena (VideoWA), a benchmark for evaluating the capabilities of long-context multimodal agents for video understanding. VideoWA consists of 2,021 web agent tasks based on manually crafted video tutorials, which total almost four hours of content. For our benchmark, we define a taxonomy of long-context video-based agent tasks with two main areas of focus: skill retention and factual retention. While skill retention tasks evaluate whether an agent can use a given human demonstration to complete a task efficiently, the factual retention task evaluates whether an agent can retrieve instruction-relevant information from a video to complete a task. We find that the best model achieves 13.3% success on factual retention tasks and 45.8% on factual retention QA pairs, far below human performance at 73.9% and 79.3%, respectively. On skill retention tasks, long-context models perform worse with tutorials than without, exhibiting a 5% performance decrease in WebArena tasks and a 10.3% decrease in VisualWebArena tasks. Our work highlights the need to improve the agentic abilities of long-context multimodal models and provides a testbed for future development with long-context video agents.

Summary

AI-Generated Summary

PDF62November 16, 2024