L'IA peut développer un goût scientifique

Résumé

Les grands scientifiques possèdent un jugement et une perspicacité remarquables, étroitement liés à ce que l'on appelle le goût scientifique. Nous utilisons ici ce terme pour désigner la capacité à évaluer et à proposer des idées de recherche ayant un fort impact potentiel. Cependant, la plupart des recherches se concentrent sur l'amélioration des capacités d'exécution d'un scientifique IA, tandis que le renforcement du goût scientifique des IA reste peu exploré. Dans ce travail, nous proposons le Renforcement par Retour Communautaire (RLCF), un paradigme d'entraînement utilisant des signaux communautaires à grande échelle comme supervision, et formulons l'apprentissage du goût scientifique comme un problème de modélisation et d'alignement des préférences. Pour la modélisation des préférences, nous entraînons Scientific Judge sur 700 000 paires d'articles (à fort vs faible nombre de citations) appariés par domaine et par date, afin qu'il évalue les idées. Pour l'alignement des préférences, en utilisant Scientific Judge comme modèle de récompense, nous entraînons un modèle de politique, Scientific Thinker, à proposer des idées de recherche à fort impact potentiel. Les expériences montrent que Scientific Judge surpasse les LLMs de l'état de l'art (par exemple, GPT-5.2, Gemini 3 Pro) et généralise aux tests d'années futures, aux domaines non vus et aux préférences issues de l'évaluation par les pairs. De plus, Scientific Thinker propose des idées de recherche ayant un impact potentiel plus élevé que les méthodes de référence. Nos résultats démontrent que l'IA peut acquérir un goût scientifique, marquant une étape clé vers la réalisation de scientifiques IA de niveau humain.

English

Great scientists have strong judgement and foresight, closely tied to what we call scientific taste. Here, we use the term to refer to the capacity to judge and propose research ideas with high potential impact. However, most relative research focuses on improving an AI scientist's executive capability, while enhancing an AI's scientific taste remains underexplored. In this work, we propose Reinforcement Learning from Community Feedback (RLCF), a training paradigm that uses large-scale community signals as supervision, and formulate scientific taste learning as a preference modeling and alignment problem. For preference modeling, we train Scientific Judge on 700K field- and time-matched pairs of high- vs. low-citation papers to judge ideas. For preference alignment, using Scientific Judge as a reward model, we train a policy model, Scientific Thinker, to propose research ideas with high potential impact. Experiments show Scientific Judge outperforms SOTA LLMs (e.g., GPT-5.2, Gemini 3 Pro) and generalizes to future-year test, unseen fields, and peer-review preference. Furthermore, Scientific Thinker proposes research ideas with higher potential impact than baselines. Our findings show that AI can learn scientific taste, marking a key step toward reaching human-level AI scientists.

L'IA peut développer un goût scientifique

AI Can Learn Scientific Taste

Résumé

Support