CURIE: 다중 작업 과학적 장문맥 이해 및 추론에 대한 대형 언어 모델 평가
CURIE: Evaluating LLMs On Multitask Scientific Long Context Understanding and Reasoning
March 14, 2025
저자: Hao Cui, Zahra Shamsi, Gowoon Cheon, Xuejian Ma, Shutong Li, Maria Tikhanovskaya, Peter Norgaard, Nayantara Mudur, Martyna Plomecka, Paul Raccuglia, Yasaman Bahri, Victor V. Albert, Pranesh Srinivasan, Haining Pan, Philippe Faist, Brian Rohr, Michael J. Statt, Dan Morris, Drew Purves, Elise Kleeman, Ruth Alcantara, Matthew Abraham, Muqthar Mohammad, Ean Phing VanLee, Chenfei Jiang, Elizabeth Dorfman, Eun-Ah Kim, Michael P Brenner, Viren Jain, Sameera Ponda, Subhashini Venugopalan
cs.AI
초록
과학적 문제 해결은 전문 지식을 적용하면서 정보를 종합하는 과정을 포함합니다. 우리는 과학적 문제 해결 및 과학자들의 실제 업무 지원에서 대규모 언어 모델(LLMs)의 잠재력을 측정하기 위해 CURIE(CURIE: 과학적 장문 맥락 이해, 추론 및 정보 추출 벤치마크)를 소개합니다. 이 벤치마크는 재료 과학, 응집 물리학, 양자 컴퓨팅, 지리공간 분석, 생물 다양성, 단백질 등 6개 분야의 전문가들이 선별한 총 580개의 문제와 해결 쌍으로 구성된 10개의 도전적인 과제를 제시합니다. 이 과제들은 과학의 실험적 및 이론적 워크플로우를 모두 다룹니다. 우리는 CURIE의 과제들에 대해 폐쇄형 및 오픈형 LLMs를 평가하며, 이는 도메인 전문 지식, 장문 맥락 정보 이해, 다단계 추론을 요구합니다. Gemini Flash 2.0과 Claude-3는 모든 도메인에서 일관되게 높은 이해력을 보여주는 반면, 인기 있는 GPT-4o와 command-R+는 단백질 서열 분석 과제에서 심각한 실패를 보입니다. 최고 성능이 32%에 불과한 만큼, 모든 모델에 개선의 여지가 많습니다. 우리는 CURIE에서 얻은 통찰이 과학 분야에서 LLMs의 미래 개발을 안내할 수 있기를 바랍니다. 평가 코드와 데이터는 https://github.com/google/curie에서 확인할 수 있습니다.
English
Scientific problem-solving involves synthesizing information while applying
expert knowledge. We introduce CURIE, a scientific long-Context
Understanding,Reasoning and Information Extraction benchmark to measure the
potential of Large Language Models (LLMs) in scientific problem-solving and
assisting scientists in realistic workflows. This benchmark introduces ten
challenging tasks with a total of 580 problems and solution pairs curated by
experts in six disciplines - materials science, condensed matter physics,
quantum computing, geospatial analysis, biodiversity, and proteins - covering
both experimental and theoretical work-flows in science. We evaluate a range of
closed and open LLMs on tasks in CURIE which requires domain expertise,
comprehension of long in-context information,and multi-step reasoning. While
Gemini Flash 2.0 and Claude-3 show consistent high comprehension across
domains, the popular GPT-4o and command-R+ fail dramatically on protein
sequencing tasks. With the best performance at 32% there is much room for
improvement for all models. We hope that insights gained from CURIE can guide
the future development of LLMs in sciences. Evaluation code and data are in
https://github.com/google/curieSummary
AI-Generated Summary