ChatPaper.aiChatPaper

ScienceAgentBench: Naar een Rigoureuze Beoordeling van Taalagenten voor Data-Gedreven Wetenschappelijke Ontdekking.

ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery

October 7, 2024
Auteurs: Ziru Chen, Shijie Chen, Yuting Ning, Qianheng Zhang, Boshi Wang, Botao Yu, Yifei Li, Zeyi Liao, Chen Wei, Zitong Lu, Vishal Dey, Mingyi Xue, Frazier N. Baker, Benjamin Burns, Daniel Adu-Ampratwum, Xuhui Huang, Xia Ning, Song Gao, Yu Su, Huan Sun
cs.AI

Samenvatting

De vooruitgang van taalmodellen (LM's) heeft een groeiende interesse gewekt in het ontwikkelen van op LM gebaseerde taalagenten om wetenschappelijke ontdekkingen volledig te automatiseren, wat zowel opwinding als scepsis heeft veroorzaakt over de werkelijke mogelijkheden van dergelijke agenten. In dit werk betogen we dat een agent om wetenschappelijke ontdekkingen volledig te automatiseren, in staat moet zijn om alle essentiële taken in het werkproces te voltooien. Daarom pleiten we voor een grondige beoordeling van agenten op individuele taken in een wetenschappelijk werkproces voordat er gedurfde beweringen worden gedaan over volledige automatisering. Met dit doel presenteren we ScienceAgentBench, een nieuwe benchmark voor het evalueren van taalagenten voor op data gebaseerde wetenschappelijke ontdekkingen. Om de wetenschappelijke authenticiteit en real-world relevantie van onze benchmark te waarborgen, extraheren we 102 taken uit 44 peer-reviewed publicaties in vier disciplines en betrekken we negen onderwerpsdeskundigen om ze te valideren. We verenigen de beoogde output voor elke taak naar een op zichzelf staand Python-programmabestand en gebruiken een reeks evaluatiemetrics om de gegenereerde programma's, uitvoeringsresultaten en kosten te onderzoeken. Elke taak wordt meerdere malen handmatig gevalideerd door annotatoren en onderwerpsdeskundigen om de kwaliteit van de annotatie en wetenschappelijke plausibiliteit te waarborgen. We stellen ook twee effectieve strategieën voor om zorgen over gegevensverontreiniging te verminderen. Met behulp van onze benchmark evalueren we vijf open-source en eigen LM's, elk met drie frameworks: directe aansturing, OpenHands en zelf-debugging. Met drie pogingen voor elke taak kan de best presterende agent slechts 32,4% van de taken zelfstandig oplossen en 34,3% met door experts verstrekte kennis. Deze resultaten benadrukken de beperkte capaciteiten van huidige taalagenten in het genereren van code voor op data gebaseerde ontdekkingen, laat staan volledige automatisering voor wetenschappelijk onderzoek.
English
The advancements of language language models (LLMs) have piqued growing interest in developing LLM-based language agents to automate scientific discovery end-to-end, which has sparked both excitement and skepticism about the true capabilities of such agents. In this work, we argue that for an agent to fully automate scientific discovery, it must be able to complete all essential tasks in the workflow. Thus, we call for rigorous assessment of agents on individual tasks in a scientific workflow before making bold claims on end-to-end automation. To this end, we present ScienceAgentBench, a new benchmark for evaluating language agents for data-driven scientific discovery. To ensure the scientific authenticity and real-world relevance of our benchmark, we extract 102 tasks from 44 peer-reviewed publications in four disciplines and engage nine subject matter experts to validate them. We unify the target output for every task to a self-contained Python program file and employ an array of evaluation metrics to examine the generated programs, execution results, and costs. Each task goes through multiple rounds of manual validation by annotators and subject matter experts to ensure its annotation quality and scientific plausibility. We also propose two effective strategies to mitigate data contamination concerns. Using our benchmark, we evaluate five open-weight and proprietary LLMs, each with three frameworks: direct prompting, OpenHands, and self-debug. Given three attempts for each task, the best-performing agent can only solve 32.4% of the tasks independently and 34.3% with expert-provided knowledge. These results underscore the limited capacities of current language agents in generating code for data-driven discovery, let alone end-to-end automation for scientific research.

Summary

AI-Generated Summary

PDF212November 16, 2024