Прохождение сквозь строй: переоценка возможностей агентов за пределами привычной среды

Аннотация

По мере того как агентные системы продолжают развиваться и широко внедряться в реальные сценарии, возникает растущая потребность в достоверной оценке их возможностей. Однако современные бенчмарки, как правило, строятся на популярных приложениях с относительно простыми задачами и фокусируются на узком наборе способностей, упуская из виду более широкие аспекты, что приводит к насыщению производительности на современных агентах и не позволяет выявить их ограничения. Для решения этой проблемы мы представляем GauntletBench — веб-ориентированный бенчмарк для оценки обобщающей способности агентов в сложных сценариях, сфокусированный на трех малоизученных способностях (временное восприятие, понимание графики и 3D-рассуждение) в пяти менее освещенных профессиональных приложениях (видеоредактор, конструктор рабочих процессов, 3D-моделлер, анализатор полетов и проектировщик схем), каждое из которых содержит 20 задач с интенсивным использованием зрения (всего 100 задач). Наш бенчмарк предоставляет модульный конвейер, включающий среду, совместимую как с открытыми, так и с закрытыми фреймворками агентов, контролируемое веб-приложение, хорошо структурированный набор задач и автоматический движок оценки с разнообразными метриками. Вопреки широко распространенным ожиданиям, наши эмпирические результаты показывают, что передовые агентные системы все еще далеки от достижения производительности на уровне человека. Даже самый современный агент достигает лишь 19,1% успеха на нашем GauntletBench, что подчеркивает ограничения в этих упущенных из виду способностях и обобщении. Для сравнения, аннотаторы-неспециалисты демонстрируют более 80% успеха на наших сложных, но выполнимых задачах, выявляя значительный разрыв между текущими возможностями агентов и теми, которые требуются для сложных реальных сценариев.

English

As agentic systems continue to evolve and are widely deployed in real-world scenarios, there is a growing demand to faithfully evaluate their capabilities. However, current benchmarks are typically built on popular applications with relatively simple tasks and focus on a narrow set of capabilities while overlooking broader dimensions, resulting in saturated performance on modern agents and failing to probe their limitations. To this end, we introduce GauntletBench, a web-based benchmark for evaluating agent generalisation in challenging scenarios, focusing on three underexplored capabilities (temporal perception, graphical understanding, and 3D reasoning), across five less-covered professional applications (Video Editor, Workflow Builder, 3D Modeller, Flight Analyser, and Circuit Designer), each with 20 vision-intensive tasks (100 in total). Our benchmark provides a modular pipeline that comprises an environment compatible with both open- and closed-source agent frameworks, a controlled web-based application, a well-structured task suite, and an automated evaluation engine with diverse metrics. Contrary to widespread expectations, our empirical results reveal that frontier agentic systems remain far from achieving human-level performance. Even the state-of-the-art agent achieves only a 19.1% success rate on our GauntletBench, highlighting the limitations in these overlooked capabilities and generalisation. By comparison, non-expert human annotators achieve over 80% success on our challenging yet feasible tasks, revealing the substantial gap between current agent capabilities and those required for complex real-world scenarios.