AI kan wetenschappelijke smaak aanleren

Samenvatting

Beroemde wetenschappers beschikken over een sterk oordeelsvermogen en vooruitziende blik, wat nauw verbonden is met wat we wetenschappelijke smaak noemen. Hier gebruiken we de term om te verwijzen naar het vermogen om onderzoeksideeën met een hoge potentiële impact te beoordelen en voor te stellen. Het meeste gerelateerde onderzoek richt zich echter op het verbeteren van de uitvoerende capaciteit van een AI-wetenschapper, terwijl het verbeteren van de wetenschappelijke smaak van een AI onderbelicht blijft. In dit werk stellen we Reinforcement Learning from Community Feedback (RLCF) voor, een trainingsparadigma dat grootschalige gemeenschapssignalen als supervisie gebruikt, en formuleren we wetenschappelijke smaakleren als een voorkeursmodellerings- en afstemmingsprobleem. Voor voorkeursmodellering trainen we Scientific Judge op 700.000 veld- en tijd-gematchede paren van hoog- versus laag-geciteerde artikelen om ideeën te beoordelen. Voor voorkeursafstemming, met Scientific Judge als beloningsmodel, trainen we een beleidsmodel, Scientific Thinker, om onderzoeksideeën met een hoge potentiële impact voor te stellen. Experimenten tonen aan dat Scientific Judge state-of-the-art grote taalmodelen (zoals GPT-5.2, Gemini 3 Pro) overtreft en generaliseert naar toekomstige jaartesten, onbekende velden en peer-review voorkeuren. Bovendien stelt Scientific Thinker onderzoeksideeën voor met een hogere potentiële impact dan baseline-methoden. Onze bevindingen tonen aan dat AI wetenschappelijke smaak kan leren, wat een cruciale stap markeert richting AI-wetenschappers op menselijk niveau.

English

Great scientists have strong judgement and foresight, closely tied to what we call scientific taste. Here, we use the term to refer to the capacity to judge and propose research ideas with high potential impact. However, most relative research focuses on improving an AI scientist's executive capability, while enhancing an AI's scientific taste remains underexplored. In this work, we propose Reinforcement Learning from Community Feedback (RLCF), a training paradigm that uses large-scale community signals as supervision, and formulate scientific taste learning as a preference modeling and alignment problem. For preference modeling, we train Scientific Judge on 700K field- and time-matched pairs of high- vs. low-citation papers to judge ideas. For preference alignment, using Scientific Judge as a reward model, we train a policy model, Scientific Thinker, to propose research ideas with high potential impact. Experiments show Scientific Judge outperforms SOTA LLMs (e.g., GPT-5.2, Gemini 3 Pro) and generalizes to future-year test, unseen fields, and peer-review preference. Furthermore, Scientific Thinker proposes research ideas with higher potential impact than baselines. Our findings show that AI can learn scientific taste, marking a key step toward reaching human-level AI scientists.

AI kan wetenschappelijke smaak aanleren

AI Can Learn Scientific Taste

Samenvatting

Support