ChatPaper.aiChatPaper

ScienceBoard: Оценка мультимодальных автономных агентов в реалистичных научных процессах

ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows

May 26, 2025
Авторы: Qiushi Sun, Zhoumianze Liu, Chang Ma, Zichen Ding, Fangzhi Xu, Zhangyue Yin, Haiteng Zhao, Zhenyu Wu, Kanzhi Cheng, Zhaoyang Liu, Jianing Wang, Qintong Li, Xiangru Tang, Tianbao Xie, Xiachong Feng, Xiang Li, Ben Kao, Wenhai Wang, Biqing Qi, Lingpeng Kong, Zhiyong Wu
cs.AI

Аннотация

Крупные языковые модели (LLM) расширили свое влияние за пределы обработки естественного языка, существенно способствуя развитию междисциплинарных исследований. В последнее время были разработаны различные агенты на основе LLM, которые помогают продвижению научных открытий в различных аспектах и областях. Среди них особое внимание привлекают агенты, способные взаимодействовать с операционными системами так же, как это делают люди, что открывает путь к автоматизации решения научных задач и оптимизации рабочих процессов исследователей. Осознавая преобразующий потенциал таких агентов, мы представляем ScienceBoard, который включает два взаимодополняющих вклада: (i) реалистичную, многодоменную среду, включающую динамические и визуально насыщенные научные рабочие процессы с интегрированным профессиональным программным обеспечением, где агенты могут автономно взаимодействовать через различные интерфейсы для ускорения сложных исследовательских задач и экспериментов; и (ii) сложный бенчмарк из 169 высококачественных, тщательно проверенных реальных задач, охватывающих рабочие процессы научных открытий в таких областях, как биохимия, астрономия и геоинформатика. Обширные оценки агентов с передовыми архитектурами (например, GPT-4o, Claude 3.7, UI-TARS) показывают, что, несмотря на некоторые обнадеживающие результаты, они все еще не способны надежно помогать ученым в сложных рабочих процессах, достигая лишь 15% общего уровня успешности. Глубокий анализ также предоставляет ценные инсайты для преодоления текущих ограничений агентов и разработки более эффективных принципов проектирования, прокладывая путь к созданию более способных агентов для научных открытий. Наш код, среда и бенчмарк доступны по адресу https://qiushisun.github.io/ScienceBoard-Home/.
English
Large Language Models (LLMs) have extended their impact beyond Natural Language Processing, substantially fostering the development of interdisciplinary research. Recently, various LLM-based agents have been developed to assist scientific discovery progress across multiple aspects and domains. Among these, computer-using agents, capable of interacting with operating systems as humans do, are paving the way to automated scientific problem-solving and addressing routines in researchers' workflows. Recognizing the transformative potential of these agents, we introduce ScienceBoard, which encompasses two complementary contributions: (i) a realistic, multi-domain environment featuring dynamic and visually rich scientific workflows with integrated professional software, where agents can autonomously interact via different interfaces to accelerate complex research tasks and experiments; and (ii) a challenging benchmark of 169 high-quality, rigorously validated real-world tasks curated by humans, spanning scientific-discovery workflows in domains such as biochemistry, astronomy, and geoinformatics. Extensive evaluations of agents with state-of-the-art backbones (e.g., GPT-4o, Claude 3.7, UI-TARS) show that, despite some promising results, they still fall short of reliably assisting scientists in complex workflows, achieving only a 15% overall success rate. In-depth analysis further provides valuable insights for addressing current agent limitations and more effective design principles, paving the way to build more capable agents for scientific discovery. Our code, environment, and benchmark are at https://qiushisun.github.io/ScienceBoard-Home/.

Summary

AI-Generated Summary

PDF1012May 28, 2025