L'IA può apprendere il gusto scientifico

Abstract

I grandi scienziati possiedono un giudizio solido e una spiccata capacità di previsione, strettamente legate a ciò che definiamo gusto scientifico. In questo contesto, utilizziamo il termine per indicare l'abilità di giudicare e proporre idee di ricerca ad alto potenziale di impatto. Tuttavia, la maggior parte della ricerca correlata si concentra sul migliorare le capacità esecutive di uno scienziato IA, mentre il potenziamento del gusto scientifico di un'IA rimane un ambito poco esplorato. In questo lavoro, proponiamo il Reinforcement Learning from Community Feedback (RLCF), un paradigma di addestramento che utilizza segnali comunitari su larga scala come supervisione, e formuliamo l'apprendimento del gusto scientifico come un problema di modellazione e allineamento delle preferenze. Per la modellazione delle preferenze, addestriamo Scientific Judge su 700.000 coppie di articoli ad alto e basso numero di citazioni, abbinati per ambito e periodo temporale, per valutare le idee. Per l'allineamento delle preferenze, utilizzando Scientific Judge come modello di ricompensa, addestriamo un modello policy, Scientific Thinker, a proporre idee di ricerca con elevato potenziale di impatto. Gli esperimenti mostrano che Scientific Judge supera i LLM state-of-the-art (ad es. GPT-5.2, Gemini 3 Pro) e si generalizza bene a test su anni futuri, campi non visti e preferenze di revisione tra pari. Inoltre, Scientific Thinker propone idee di ricerca con un potenziale di impatto superiore rispetto ai modelli di base. I nostri risultati dimostrano che l'IA può apprendere il gusto scientifico, segnando un passo cruciale verso il raggiungimento di scienziati IA di livello umano.

English

Great scientists have strong judgement and foresight, closely tied to what we call scientific taste. Here, we use the term to refer to the capacity to judge and propose research ideas with high potential impact. However, most relative research focuses on improving an AI scientist's executive capability, while enhancing an AI's scientific taste remains underexplored. In this work, we propose Reinforcement Learning from Community Feedback (RLCF), a training paradigm that uses large-scale community signals as supervision, and formulate scientific taste learning as a preference modeling and alignment problem. For preference modeling, we train Scientific Judge on 700K field- and time-matched pairs of high- vs. low-citation papers to judge ideas. For preference alignment, using Scientific Judge as a reward model, we train a policy model, Scientific Thinker, to propose research ideas with high potential impact. Experiments show Scientific Judge outperforms SOTA LLMs (e.g., GPT-5.2, Gemini 3 Pro) and generalizes to future-year test, unseen fields, and peer-review preference. Furthermore, Scientific Thinker proposes research ideas with higher potential impact than baselines. Our findings show that AI can learn scientific taste, marking a key step toward reaching human-level AI scientists.

L'IA può apprendere il gusto scientifico

AI Can Learn Scientific Taste

Abstract

Support