ScienceBoard: Bewertung multimodaler autonomer Agenten in realistischen wissenschaftlichen Arbeitsabläufen
ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows
May 26, 2025
Autoren: Qiushi Sun, Zhoumianze Liu, Chang Ma, Zichen Ding, Fangzhi Xu, Zhangyue Yin, Haiteng Zhao, Zhenyu Wu, Kanzhi Cheng, Zhaoyang Liu, Jianing Wang, Qintong Li, Xiangru Tang, Tianbao Xie, Xiachong Feng, Xiang Li, Ben Kao, Wenhai Wang, Biqing Qi, Lingpeng Kong, Zhiyong Wu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben ihren Einfluss über die Verarbeitung natürlicher Sprache hinaus erweitert und die Entwicklung interdisziplinärer Forschung erheblich gefördert. In jüngster Zeit wurden verschiedene LLM-basierte Agenten entwickelt, um den Fortschritt der wissenschaftlichen Entdeckung in vielfältigen Aspekten und Domänen zu unterstützen. Unter diesen ebnen Computer nutzende Agenten, die in der Lage sind, mit Betriebssystemen zu interagieren wie Menschen, den Weg zur automatisierten Lösung wissenschaftlicher Probleme und zur Bewältigung von Routinen in den Arbeitsabläufen von Forschern. In Anerkennung des transformativen Potenzials dieser Agenten stellen wir ScienceBoard vor, das zwei komplementäre Beiträge umfasst: (i) eine realistische, multidisziplinäre Umgebung mit dynamischen und visuell ansprechenden wissenschaftlichen Arbeitsabläufen und integrierter professioneller Software, in der Agenten autonom über verschiedene Schnittstellen interagieren können, um komplexe Forschungsaufgaben und Experimente zu beschleunigen; und (ii) einen anspruchsvollen Benchmark mit 169 hochwertigen, rigoros validierten realen Aufgaben, die von Menschen kuratiert wurden und wissenschaftliche Entdeckungsprozesse in Domänen wie Biochemie, Astronomie und Geoinformatik abdecken. Umfangreiche Evaluierungen von Agenten mit modernsten Architekturen (z.B. GPT-4o, Claude 3.7, UI-TARS) zeigen, dass sie trotz einiger vielversprechender Ergebnisse noch nicht zuverlässig Wissenschaftler in komplexen Arbeitsabläufen unterstützen können und lediglich eine Gesamterfolgsquote von 15 % erreichen. Eine detaillierte Analyse liefert zudem wertvolle Einblicke in die Bewältigung aktueller Einschränkungen von Agenten und effektivere Designprinzipien, was den Weg für die Entwicklung leistungsfähigerer Agenten für die wissenschaftliche Entdeckung ebnet. Unser Code, die Umgebung und der Benchmark sind unter https://qiushisun.github.io/ScienceBoard-Home/ verfügbar.
English
Large Language Models (LLMs) have extended their impact beyond Natural
Language Processing, substantially fostering the development of
interdisciplinary research. Recently, various LLM-based agents have been
developed to assist scientific discovery progress across multiple aspects and
domains. Among these, computer-using agents, capable of interacting with
operating systems as humans do, are paving the way to automated scientific
problem-solving and addressing routines in researchers' workflows. Recognizing
the transformative potential of these agents, we introduce ScienceBoard, which
encompasses two complementary contributions: (i) a realistic, multi-domain
environment featuring dynamic and visually rich scientific workflows with
integrated professional software, where agents can autonomously interact via
different interfaces to accelerate complex research tasks and experiments; and
(ii) a challenging benchmark of 169 high-quality, rigorously validated
real-world tasks curated by humans, spanning scientific-discovery workflows in
domains such as biochemistry, astronomy, and geoinformatics. Extensive
evaluations of agents with state-of-the-art backbones (e.g., GPT-4o, Claude
3.7, UI-TARS) show that, despite some promising results, they still fall short
of reliably assisting scientists in complex workflows, achieving only a 15%
overall success rate. In-depth analysis further provides valuable insights for
addressing current agent limitations and more effective design principles,
paving the way to build more capable agents for scientific discovery. Our code,
environment, and benchmark are at
https://qiushisun.github.io/ScienceBoard-Home/.Summary
AI-Generated Summary