KI kann wissenschaftlichen Geschmack erlernen

Zusammenfassung

Große Wissenschaftler verfügen über ein starkes Urteilsvermögen und Weitsicht, was eng mit dem zusammenhängt, was wir als wissenschaftlichen Geschmack bezeichnen. Hier verwenden wir den Begriff, um die Fähigkeit zu beschreiben, Forschungsideen mit hohem potenziellem Impact zu beurteilen und vorzuschlagen. Die meisten verwandten Forschungsarbeiten konzentrieren sich jedoch darauf, die Ausführungsfähigkeit eines KI-Wissenschaftlers zu verbessern, während die Verbesserung des wissenschaftlichen Geschmacks einer KI weitgehend unerforscht bleibt. In dieser Arbeit schlagen wir Reinforcement Learning from Community Feedback (RLCF) vor, ein Trainingsparadigma, das großskalige Community-Signale als Supervision nutzt, und formulieren das Lernen von wissenschaftlichem Geschmack als ein Problem der Präferenzmodellierung und -anpassung. Für die Präferenzmodellierung trainieren wir Scientific Judge anhand von 700.000 feld- und zeitlich abgeglichenen Paaren von hoch- vs. niedrig-zitierten Publikationen, um Ideen zu bewerten. Für die Präferenzanpassung trainieren wir unter Verwendung von Scientific Judge als Belohnungsmodell ein Policy-Modell, Scientific Thinker, um Forschungsideen mit hohem potenziellem Impact vorzuschlagen. Experimente zeigen, dass Scientific Judge state-of-the-art LLMs (z.B. GPT-5.2, Gemini 3 Pro) übertrifft und sich auf Tests mit zukünftigen Jahren, ungesehene Felder und Peer-Review-Präferenzen verallgemeinert. Darüber hinaus schlägt Scientific Thinker Forschungsideen mit höherem potenziellem Impact vor als Vergleichsmodelle. Unsere Ergebnisse zeigen, dass KI wissenschaftlichen Geschmack erlernen kann, was einen wichtigen Schritt auf dem Weg zu KI-Wissenschaftlern auf menschlichem Niveau darstellt.

English

Great scientists have strong judgement and foresight, closely tied to what we call scientific taste. Here, we use the term to refer to the capacity to judge and propose research ideas with high potential impact. However, most relative research focuses on improving an AI scientist's executive capability, while enhancing an AI's scientific taste remains underexplored. In this work, we propose Reinforcement Learning from Community Feedback (RLCF), a training paradigm that uses large-scale community signals as supervision, and formulate scientific taste learning as a preference modeling and alignment problem. For preference modeling, we train Scientific Judge on 700K field- and time-matched pairs of high- vs. low-citation papers to judge ideas. For preference alignment, using Scientific Judge as a reward model, we train a policy model, Scientific Thinker, to propose research ideas with high potential impact. Experiments show Scientific Judge outperforms SOTA LLMs (e.g., GPT-5.2, Gemini 3 Pro) and generalizes to future-year test, unseen fields, and peer-review preference. Furthermore, Scientific Thinker proposes research ideas with higher potential impact than baselines. Our findings show that AI can learn scientific taste, marking a key step toward reaching human-level AI scientists.

KI kann wissenschaftlichen Geschmack erlernen

AI Can Learn Scientific Taste

Zusammenfassung

Support