AssistantBench: Могут ли веб-агенты решать реалистичные и времязатратные задачи?
AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?
July 22, 2024
Авторы: Ori Yoran, Samuel Joseph Amouyal, Chaitanya Malaviya, Ben Bogin, Ofir Press, Jonathan Berant
cs.AI
Аннотация
Языковые агенты, построенные на основе языковых моделей (ЯМ), представляют собой системы, способные взаимодействовать с сложными средами, такими как открытая сеть Интернет. В данной работе мы исследуем, могут ли такие агенты выполнять реалистичные и времязатратные задачи в сети, например, мониторинг рынков недвижимости или поиск соответствующих близлежащих предприятий. Мы представляем AssistantBench, сложный новый бенчмарк, состоящий из 214 реалистичных задач, которые могут быть автоматически оценены, охватывая различные сценарии и области. Мы обнаружили, что AssistantBench выявляет ограничения текущих систем, включая языковые модели и модели языка с увеличенным поиском, поскольку ни одна модель не достигает точности более 25 пунктов. В то время как языковые модели закрытого типа показывают хорошие результаты, они имеют низкую точность, поскольку склонны галлюцинировать факты. Современные веб-агенты достигают оценки близкой к нулю. Кроме того, мы представляем SeePlanAct (SPA), нового веб-агента, который значительно превосходит предыдущих агентов, и ансамбль SPA и моделей закрытого типа показывает лучшую общую производительность. Более того, мы анализируем неудачи текущих систем и выделяем, что навигация по сети остается значительным вызовом.
English
Language agents, built on top of language models (LMs), are systems that can
interact with complex environments, such as the open web. In this work, we
examine whether such agents can perform realistic and time-consuming tasks on
the web, e.g., monitoring real-estate markets or locating relevant nearby
businesses. We introduce AssistantBench, a challenging new benchmark consisting
of 214 realistic tasks that can be automatically evaluated, covering different
scenarios and domains. We find that AssistantBench exposes the limitations of
current systems, including language models and retrieval-augmented language
models, as no model reaches an accuracy of more than 25 points. While
closed-book LMs perform well, they exhibit low precision since they tend to
hallucinate facts. State-of-the-art web agents reach a score of near zero.
Additionally, we introduce SeePlanAct (SPA), a new web agent that significantly
outperforms previous agents, and an ensemble of SPA and closed-book models
reaches the best overall performance. Moreover, we analyze failures of current
systems and highlight that web navigation remains a major challenge.Summary
AI-Generated Summary