Искусственный интеллект способен усваивать научные предпочтения

Аннотация

Выдающиеся ученые обладают развитым чутьем и проницательностью, тесно связанными с тем, что принято называть научным вкусом. В данной работе под научным вкусом понимается способность оценивать и формулировать исследовательские идеи, обладающие высоким потенциалом влияния. Однако большинство существующих исследований сосредоточено на повышении исполнительской способности ИИ-ученого, в то время как развитие научного вкуса у искусственного интеллекта остается малоизученной областью. В этой работе мы предлагаем парадигму обучения с подкреплением на основе сообщества (Reinforcement Learning from Community Feedback, RLCF), которая использует масштабные сигналы научного сообщества в качестве супервизии, и формулируем задачу обучения научному вкусу как проблему моделирования и согласования предпочтений. Для моделирования предпочтений мы обучаем модель Scientific Judge на 700 тысячах пар статей с высоким и низким цитированием, сопоставленных по области и времени публикации, чтобы оценивать идеи. Для согласования предпочтений, используя Scientific Judge в качестве модели вознаграждения, мы обучаем политическую модель Scientific Thinker формулировать исследовательские идеи с высоким потенциалом влияния. Эксперименты показывают, что Scientific Judge превосходит современные большие языковые модели (такие как GPT-5.2, Gemini 3 Pro) и демонстрирует обобщающую способность в тестах на будущие годы, ранее не встречавшихся областях и соответствии рецензионным предпочтениям. Более того, Scientific Thinker предлагает исследовательские идеи с более высоким потенциалом влияния, чем базовые модели. Наши результаты демонстрируют, что ИИ способен обучаться научному вкусу, что знаменует ключевой шаг на пути к созданию ИИ-ученых человеческого уровня.

English

Great scientists have strong judgement and foresight, closely tied to what we call scientific taste. Here, we use the term to refer to the capacity to judge and propose research ideas with high potential impact. However, most relative research focuses on improving an AI scientist's executive capability, while enhancing an AI's scientific taste remains underexplored. In this work, we propose Reinforcement Learning from Community Feedback (RLCF), a training paradigm that uses large-scale community signals as supervision, and formulate scientific taste learning as a preference modeling and alignment problem. For preference modeling, we train Scientific Judge on 700K field- and time-matched pairs of high- vs. low-citation papers to judge ideas. For preference alignment, using Scientific Judge as a reward model, we train a policy model, Scientific Thinker, to propose research ideas with high potential impact. Experiments show Scientific Judge outperforms SOTA LLMs (e.g., GPT-5.2, Gemini 3 Pro) and generalizes to future-year test, unseen fields, and peer-review preference. Furthermore, Scientific Thinker proposes research ideas with higher potential impact than baselines. Our findings show that AI can learn scientific taste, marking a key step toward reaching human-level AI scientists.

Искусственный интеллект способен усваивать научные предпочтения

AI Can Learn Scientific Taste

Аннотация

Support