ChatPaper.aiChatPaper

WebChoreArena: Оценка веб-браузерных агентов на реалистичных монотонных веб-задачах

WebChoreArena: Evaluating Web Browsing Agents on Realistic Tedious Web Tasks

June 2, 2025
Авторы: Atsuyuki Miyai, Zaiying Zhao, Kazuki Egashira, Atsuki Sato, Tatsumi Sunada, Shota Onohara, Hiromasa Yamanishi, Mashiro Toyooka, Kunato Nishina, Ryoma Maeda, Kiyoharu Aizawa, Toshihiko Yamasaki
cs.AI

Аннотация

На основе крупной языковой модели (LLM) веб-браузерный агент управляет браузерами подобно человеку и предлагает высоко прозрачный путь к автоматизации широкого спектра повседневных задач. По мере того как веб-агенты становятся всё более способными и демонстрируют мастерство в выполнении общих задач веб-навигации, возникает важный вопрос: могут ли они выйти за рамки обычного просмотра и надёжно справляться с утомительными и сложными задачами, которые люди часто избегают выполнять сами? В данной статье мы представляем WebChoreArena — новый полностью воспроизводимый бенчмарк, включающий 532 тщательно отобранные задачи, предназначенные для расширения возможностей WebArena за пределы обычного просмотра до более трудоёмких и монотонных задач. WebChoreArena систематически интегрирует три ключевых вызова: (i) задачи с большим объёмом памяти, требующие точного извлечения значительного количества информации из наблюдений, (ii) вычислительные задачи, требующие точного математического рассуждения, и (iii) задачи долговременной памяти, требующие запоминания информации на протяжении нескольких веб-страниц. Построенный на основе четырёх полностью воспроизводимых и широко используемых симуляционных сред WebArena, WebChoreArena обеспечивает строгую воспроизводимость и позволяет проводить честные, прямые сравнения с установленным бенчмарком WebArena, предоставляя ключевые инсайты о прогрессе агентов. Наши экспериментальные результаты показывают, что по мере эволюции LLM, представленных GPT-4o, Claude 3.7 Sonnet и Gemini 2.5 Pro, наблюдаются значительные улучшения производительности на WebChoreArena. Эти результаты свидетельствуют о том, что WebChoreArena хорошо подходит для измерения прогресса современных LLM с большей ясностью. Тем не менее, результаты также указывают на то, что даже с Gemini 2.5 Pro остаётся значительный простор для улучшений по сравнению с WebArena, подчёркивая повышенную сложность задач, предлагаемых WebChoreArena.
English
Powered by a large language model (LLM), a web browsing agent operates web browsers in a human-like manner and offers a highly transparent path toward automating a wide range of everyday tasks. As web agents become increasingly capable and demonstrate proficiency in general browsing tasks, a critical question emerges: Can they go beyond general browsing to robustly handle tasks that are tedious and complex, or chores that humans often avoid doing themselves? In this paper, we introduce WebChoreArena, a new fully reproducible benchmark comprising 532 carefully curated tasks designed to extend the scope of WebArena beyond general browsing to more labor-intensive and tedious tasks. WebChoreArena systematically integrates three key challenges: (i) Massive Memory tasks requiring accurate retrieval of large amounts of information in the observations, (ii) Calculation tasks demanding precise mathematical reasoning, and (iii) Long-Term Memory tasks necessitating long-term memory across multiple webpages. Built on top of the fully reproducible and widely adopted four WebArena simulation environments, WebChoreArena ensures strict reproducibility and enables fair, direct comparisons with the established WebArena benchmark, offering key insights into agent progress. Our experimental results demonstrate that as LLMs evolve, represented by GPT-4o, Claude 3.7 Sonnet, and Gemini 2.5 Pro, significant improvements in performance are observed on WebChoreArena. These findings suggest that WebChoreArena is well-suited to measure the advancement of state-of-the-art LLMs with greater clarity. Nevertheless, the results also indicate that even with Gemini 2.5 Pro, there remains substantial room for improvement compared to WebArena, highlighting the increased challenges posed by WebChoreArena.
PDF103June 3, 2025