CocoaBench: Оценка унифицированных цифровых агентов в реальных условиях

Аннотация

Современные LLM-агенты демонстрируют высокую производительность в области разработки программного обеспечения, глубокого анализа, автоматизации графических интерфейсов и других приложениях, при этом новые архитектуры агентов и модели все чаще интегрируют эти возможности в единые системы. Однако большинство оценок по-прежнему тестируют эти возможности изолированно, что создает пробел для более разнообразных сценариев использования, требующих от агентов комбинирования различных навыков. Мы представляем CocoaBench — бенчмарк для унифицированных цифровых агентов, построенный на основе разработанных человеком долгосрочных задач, требующих гибкой композиции зрения, поиска и программирования. Задачи определяются только инструкцией и функцией автоматической оценки конечного результата, что обеспечивает надежную и масштабируемую оценку для различных инфраструктур агентов. Мы также представляем CocoaAgent — облегченную общую архитектуру для контролируемого сравнения различных моделей. Эксперименты показывают, что современные агенты все еще далеки от надежной работы на CocoaBench, при этом лучшая протестированная система достигает успеха лишь в 45.1% случаев. Наш анализ дополнительно указывает на значительный потенциал для улучшения в области рассуждений и планирования, использования инструментов и исполнения, а также визуального обоснования.

English

LLM agents now perform strongly in software engineering, deep research, GUI automation, and various other applications, while recent agent scaffolds and models are increasingly integrating these capabilities into unified systems. Yet, most evaluations still test these capabilities in isolation, which leaves a gap for more diverse use cases that require agents to combine different capabilities. We introduce CocoaBench, a benchmark for unified digital agents built from human-designed, long-horizon tasks that require flexible composition of vision, search, and coding. Tasks are specified only by an instruction and an automatic evaluation function over the final output, enabling reliable and scalable evaluation across diverse agent infrastructures. We also present CocoaAgent, a lightweight shared scaffold for controlled comparison across model backbones. Experiments show that current agents remain far from reliable on CocoaBench, with the best evaluated system achieving only 45.1% success rate. Our analysis further points to substantial room for improvement in reasoning and planning, tool use and execution, and visual grounding.

CocoaBench: Оценка унифицированных цифровых агентов в реальных условиях

CocoaBench: Evaluating Unified Digital Agents in the Wild

Аннотация

Support