LLMの科学的汎用知能を科学者連携ワークフローで探る
Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows
December 18, 2025
著者: Wanghan Xu, Yuhao Zhou, Yifan Zhou, Qinglong Cao, Shuo Li, Jia Bu, Bo Liu, Yixin Chen, Xuming He, Xiangyu Zhao, Xiang Zhuang, Fengxiang Wang, Zhiwang Zhou, Qiantai Feng, Wenxuan Huang, Jiaqi Wei, Hao Wu, Yuejin Yang, Guangshuai Wang, Sheng Xu, Ziyan Huang, Xinyao Liu, Jiyao Liu, Cheng Tang, Wei Li, Ying Chen, Junzhi Ning, Pengfei Jiang, Chenglong Ma, Ye Du, Changkai Ji, Huihui Xu, Ming Hu, Jiangbin Zheng, Xin Chen, Yucheng Wu, Feifei Jiang, Xi Chen, Xiangru Tang, Yuchen Fu, Yingzhou Lu, Yuanyuan Zhang, Lihao Sun, Chengbo Li, Jinzhe Ma, Wanhao Liu, Yating Liu, Kuo-Cheng Wu, Shengdu Chai, Yizhou Wang, Ouwen Zhangjin, Chen Tang, Shufei Zhang, Wenbo Cao, Junjie Ren, Taoyong Cui, Zhouheng Yao, Juntao Deng, Yijie Sun, Feng Liu, Wangxu Wei, Jingyi Xu, Zhangrui Li, Junchao Gong, Zijie Guo, Zhiyu Yao, Zaoyu Chen, Tianhao Peng, Fangchen Yu, Bo Zhang, Dongzhan Zhou, Shixiang Tang, Jiaheng Liu, Fenghua Ling, Yan Lu, Yuchen Ren, Ben Fei, Zhen Zhao, Xinyu Gu, Rui Su, Xiao-Ming Wu, Weikang Si, Yang Liu, Hao Chen, Xiangchao Yan, Xue Yang, Junchi Yan, Jiamin Wu, Qihao Zheng, Chenhui Li, Zhiqiang Gao, Hao Kong, Junjun He, Mao Su, Tianfan Fu, Peng Ye, Chunfeng Song, Nanqing Dong, Yuqiang Li, Huazhu Fu, Siqi Sun, Lijing Cheng, Jintai Lin, Wanli Ouyang, Bowen Zhou, Wenlong Zhang, Lei Bai
cs.AI
要旨
科学AIの進歩にもかかわらず、科学的汎用知能(SGI)―すなわち、科学的領域を横断して自律的に構想し、調査し、推論する能力―に対する首尾一貫した枠組みは依然として欠如している。本論文では、実践的探究モデル(PIM:熟考、構想、実行、知覚)に基づく操作的なSGIの定義を提示し、それを4つの科学者に沿ったタスク(深層調査、アイデア生成、ドライ/ウェット実験、実験的推論)を通じて具体化する。SGI-Benchは、『Science』誌の「125の大きな疑問」に着想を得た、専門家によって精選された1,000以上の学際的サンプルから構成され、最先端の大規模言語モデル(LLM)の体系的評価を可能にする。結果は以下の課題を明らかにした:深層調査ではステップレベルの整合性があるにもかかわらず完全一致率が低い(10-20%)、アイデアは実現可能性と詳細性に欠ける、ドライ実験ではコード実行可能性は高いが実行結果の正確性が低い、ウェット実験プロトコルでは一連の手順の忠実度が低い、そしてマルチモーダル比較推論における持続的な課題である。さらに、推論時に検索強化型の新規性報酬を最適化するテスト時強化学習(TTRL)を導入し、参照解答を必要とせずに仮説の新規性を高める。以上のように、我々のPIMに基づく定義、ワークフロー中心のベンチマーク、実証的知見は、科学的発見に真に参加するAIシステムの基盤を確立するものである。
English
Despite advances in scientific AI, a coherent framework for Scientific General Intelligence (SGI)-the ability to autonomously conceive, investigate, and reason across scientific domains-remains lacking. We present an operational SGI definition grounded in the Practical Inquiry Model (PIM: Deliberation, Conception, Action, Perception) and operationalize it via four scientist-aligned tasks: deep research, idea generation, dry/wet experiments, and experimental reasoning. SGI-Bench comprises over 1,000 expert-curated, cross-disciplinary samples inspired by Science's 125 Big Questions, enabling systematic evaluation of state-of-the-art LLMs. Results reveal gaps: low exact match (10--20%) in deep research despite step-level alignment; ideas lacking feasibility and detail; high code executability but low execution result accuracy in dry experiments; low sequence fidelity in wet protocols; and persistent multimodal comparative-reasoning challenges. We further introduce Test-Time Reinforcement Learning (TTRL), which optimizes retrieval-augmented novelty rewards at inference, enhancing hypothesis novelty without reference answer. Together, our PIM-grounded definition, workflow-centric benchmark, and empirical insights establish a foundation for AI systems that genuinely participate in scientific discovery.