AI는 과학적 감각을 배울 수 있다
AI Can Learn Scientific Taste
March 15, 2026
저자: Jingqi Tong, Mingzhe Li, Hangcheng Li, Yongzhuo Yang, Yurong Mou, Weijie Ma, Zhiheng Xi, Hongji Chen, Xiaoran Liu, Qinyuan Cheng, Ming Zhang, Qiguang Chen, Weifeng Ge, Qipeng Guo, Tianlei Ying, Tianxiang Sun, Yining Zheng, Xinchi Chen, Jun Zhao, Ning Ding, Xuanjing Huang, Yugang Jiang, Xipeng Qiu
cs.AI
초록
뛰어난 과학자는 강력한 판단력과 예지력을 갖추는데, 이는 이른바 과학적 취향과 밀접하게 연관되어 있습니다. 여기서 과학적 취향이란 높은 영향력을 가질 수 있는 연구 아이디어를 판단하고 제안하는 능력을 의미합니다. 그러나 대부분의 관련 연구는 AI 과학자의 실행 능력 향상에 초점을 맞추는 반면, AI의 과학적 취향 향상은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 대규모 커뮤니티 신호를 감독 신호로 활용하는 훈련 패러다임인 RLCF(Reinforcement Learning from Community Feedback)를 제안하고, 과학적 취향 학습을 선호도 모델링 및 정렬 문제로 공식화합니다. 선호도 모델링을 위해 70만 개의 동일 분야 및 동시기 논문 중 고인용 논문과 저인용 논문을 쌍으로 구성하여 과학적 판단 모델을 훈련시켜 아이디어를 판단하게 합니다. 선호도 정렬을 위해 과학적 판단 모델을 보상 모델로 사용하여 정책 모델인 과학적 사고 모델을 훈련시켜 높은 잠재적 영향력을 가진 연구 아이디어를 제안하게 합니다. 실험 결과, 과학적 판단 모델은 SOTA 대규모 언어 모델(예: GPT-5.2, Gemini 3 Pro)을 능가하며 미래 년도 테스트, 보이지 않은 분야, 그리고 동료 평가 선호도에 대해 일반화 성능을 보였습니다. 더 나아가 과학적 사고 모델은 기준 모델보다 더 높은 잠재적 영향력을 가진 연구 아이디어를 제안했습니다. 우리의 연구 결과는 AI가 과학적 취향을 학습할 수 있음을 보여주며, 이는 인간 수준의 AI 과학자 달성으로 가는 중요한 단계를 의미합니다.
English
Great scientists have strong judgement and foresight, closely tied to what we call scientific taste. Here, we use the term to refer to the capacity to judge and propose research ideas with high potential impact. However, most relative research focuses on improving an AI scientist's executive capability, while enhancing an AI's scientific taste remains underexplored. In this work, we propose Reinforcement Learning from Community Feedback (RLCF), a training paradigm that uses large-scale community signals as supervision, and formulate scientific taste learning as a preference modeling and alignment problem. For preference modeling, we train Scientific Judge on 700K field- and time-matched pairs of high- vs. low-citation papers to judge ideas. For preference alignment, using Scientific Judge as a reward model, we train a policy model, Scientific Thinker, to propose research ideas with high potential impact. Experiments show Scientific Judge outperforms SOTA LLMs (e.g., GPT-5.2, Gemini 3 Pro) and generalizes to future-year test, unseen fields, and peer-review preference. Furthermore, Scientific Thinker proposes research ideas with higher potential impact than baselines. Our findings show that AI can learn scientific taste, marking a key step toward reaching human-level AI scientists.