VideoWebArena: Оценка многосенсорных агентов с длинным контекстом при выполнении видео-понимающих веб-задач.
VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks
October 24, 2024
Авторы: Lawrence Jang, Yinheng Li, Charles Ding, Justin Lin, Paul Pu Liang, Dan Zhao, Rogerio Bonatti, Kazuhito Koishida
cs.AI
Аннотация
Видеоролики часто используются для обучения или извлечения необходимой информации для выполнения задач способами, отличными от того, что может предоставить только текст и статические изображения. Однако многие существующие бенчмарки агентов игнорируют понимание видео с длинным контекстом, вместо этого сосредотачиваясь на тексте или статических изображениях. Чтобы заполнить этот разрыв, мы представляем VideoWebArena (VideoWA) - бенчмарк для оценки возможностей многофункциональных агентов с длинным контекстом для понимания видео. VideoWA состоит из 2,021 веб-задач агента, основанных на ручно созданных видеоуроках, общей продолжительностью почти четыре часа. Для нашего бенчмарка мы определяем таксономию задач агента на основе видео с длинным контекстом с двумя основными направлениями: сохранение навыков и сохранение фактов. В то время как задачи по сохранению навыков оценивают, может ли агент использовать данное человеческое демонстрирование для эффективного выполнения задачи, задача по сохранению фактов оценивает, может ли агент извлечь информацию, релевантную для инструкции, из видео для выполнения задачи. Мы обнаружили, что лучшая модель достигает успеха на задачах по сохранению фактов в размере 13.3% и на парах вопрос-ответ по сохранению фактов в размере 45.8%, что значительно ниже человеческой производительности на уровне 73.9% и 79.3% соответственно. На задачах по сохранению навыков модели с длинным контекстом показывают худшие результаты с учебниками, чем без них, проявляя снижение производительности на 5% в задачах WebArena и на 10.3% в задачах VisualWebArena. Наша работа подчеркивает необходимость улучшения агентских способностей моделей с длинным контекстом и предоставляет площадку для будущего развития с агентами на основе видео с длинным контекстом.
English
Videos are often used to learn or extract the necessary information to
complete tasks in ways different than what text and static imagery alone can
provide. However, many existing agent benchmarks neglect long-context video
understanding, instead focusing on text or static image inputs. To bridge this
gap, we introduce VideoWebArena (VideoWA), a benchmark for evaluating the
capabilities of long-context multimodal agents for video understanding. VideoWA
consists of 2,021 web agent tasks based on manually crafted video tutorials,
which total almost four hours of content. For our benchmark, we define a
taxonomy of long-context video-based agent tasks with two main areas of focus:
skill retention and factual retention. While skill retention tasks evaluate
whether an agent can use a given human demonstration to complete a task
efficiently, the factual retention task evaluates whether an agent can retrieve
instruction-relevant information from a video to complete a task. We find that
the best model achieves 13.3% success on factual retention tasks and 45.8% on
factual retention QA pairs, far below human performance at 73.9% and 79.3%,
respectively. On skill retention tasks, long-context models perform worse with
tutorials than without, exhibiting a 5% performance decrease in WebArena tasks
and a 10.3% decrease in VisualWebArena tasks. Our work highlights the need to
improve the agentic abilities of long-context multimodal models and provides a
testbed for future development with long-context video agents.