CocoaBench: Bewertung vereinheitlichter digitaler Agenten in der Praxis

Zusammenfassung

LLM-Agenten zeigen inzwischen starke Leistungen in den Bereichen Softwareentwicklung, tiefgehende Recherche, GUI-Automatisierung und verschiedenen anderen Anwendungen, während neuere Agenten-Frameworks und Modelle diese Fähigkeiten zunehmend in vereinheitlichte Systeme integrieren. Dennoch testen die meisten Evaluierungen diese Fähigkeiten nach wie vor isoliert, was eine Lücke für vielfältigere Anwendungsfälle lässt, die von Agenten die Kombination verschiedener Fähigkeiten erfordern. Wir stellen CocoaBench vor, einen Benchmark für vereinheitlichte digitale Agenten, der auf von Menschen entworfenen, langfristigen Aufgaben basiert, die eine flexible Zusammensetzung von Vision, Suche und Programmierung erfordern. Die Aufgaben werden lediglich durch eine Instruktion und eine automatische Evaluierungsfunktion für die endgültige Ausgabe spezifiziert, was eine zuverlässige und skalierbare Bewertung über verschiedene Agenten-Infrastrukturen hinweg ermöglicht. Wir präsentieren auch CocoaAgent, ein leichtgewichtiges, gemeinsames Framework für kontrollierte Vergleiche über verschiedene Modell-Backbones hinweg. Experimente zeigen, dass aktuelle Agenten auf CocoaBench noch weit von Zuverlässigkeit entfernt sind, wobei das beste evaluierte System nur eine Erfolgsquote von 45,1 % erreicht. Unsere Analyse weist weiterhin auf erhebliches Verbesserungspotenzial in den Bereichen Reasoning und Planung, Werkzeugnutzung und -ausführung sowie visueller Verankerung hin.

English

LLM agents now perform strongly in software engineering, deep research, GUI automation, and various other applications, while recent agent scaffolds and models are increasingly integrating these capabilities into unified systems. Yet, most evaluations still test these capabilities in isolation, which leaves a gap for more diverse use cases that require agents to combine different capabilities. We introduce CocoaBench, a benchmark for unified digital agents built from human-designed, long-horizon tasks that require flexible composition of vision, search, and coding. Tasks are specified only by an instruction and an automatic evaluation function over the final output, enabling reliable and scalable evaluation across diverse agent infrastructures. We also present CocoaAgent, a lightweight shared scaffold for controlled comparison across model backbones. Experiments show that current agents remain far from reliable on CocoaBench, with the best evaluated system achieving only 45.1% success rate. Our analysis further points to substantial room for improvement in reasoning and planning, tool use and execution, and visual grounding.

CocoaBench: Bewertung vereinheitlichter digitaler Agenten in der Praxis

CocoaBench: Evaluating Unified Digital Agents in the Wild

Zusammenfassung

Support