A IA Pode Desenvolver Paladar Científico

Resumo

Grandes cientistas possuem um forte discernimento e perspicácia, características intimamente ligadas ao que chamamos de "paladar científico". Aqui, utilizamos este termo para nos referir à capacidade de julgar e propor ideias de pesquisa com alto potencial de impacto. No entanto, a maior parte da pesquisa relacionada concentra-se em melhorar a capacidade executiva de um cientista de IA, enquanto o aprimoramento do paladar científico de uma IA permanece pouco explorado. Neste trabalho, propomos o Aprendizado por Reforço a partir de Feedback da Comunidade (RLCF), um paradigma de treinamento que utiliza sinais de larga escala da comunidade como supervisão, e formulamos o aprendizado do paladar científico como um problema de modelagem e alinhamento de preferências. Para a modelagem de preferências, treinamos o "Scientific Judge" (Juiz Científico) em 700 mil pares de artigos com alto versus baixo número de citações, pareados por área e tempo, para que ele julgue ideias. Para o alinhamento de preferências, usando o Scientific Judge como um modelo de recompensa, treinamos um modelo de política, o "Scientific Thinker" (Pensador Científico), para propor ideias de pesquisa com alto potencial de impacto. Experimentos mostram que o Scientific Judge supera LLMs de estado da arte (ex.: GPT-5.2, Gemini 3 Pro) e generaliza para testes com anos futuros, áreas não vistas e preferências de revisão por pares. Além disso, o Scientific Thinker propõe ideias de pesquisa com maior potencial de impacto do que os modelos de base. Nossos resultados demonstram que a IA pode aprender o paladar científico, representando um passo fundamental rumo à conquista de cientistas de IA com capacidades equivalentes às humanas.

English

Great scientists have strong judgement and foresight, closely tied to what we call scientific taste. Here, we use the term to refer to the capacity to judge and propose research ideas with high potential impact. However, most relative research focuses on improving an AI scientist's executive capability, while enhancing an AI's scientific taste remains underexplored. In this work, we propose Reinforcement Learning from Community Feedback (RLCF), a training paradigm that uses large-scale community signals as supervision, and formulate scientific taste learning as a preference modeling and alignment problem. For preference modeling, we train Scientific Judge on 700K field- and time-matched pairs of high- vs. low-citation papers to judge ideas. For preference alignment, using Scientific Judge as a reward model, we train a policy model, Scientific Thinker, to propose research ideas with high potential impact. Experiments show Scientific Judge outperforms SOTA LLMs (e.g., GPT-5.2, Gemini 3 Pro) and generalizes to future-year test, unseen fields, and peer-review preference. Furthermore, Scientific Thinker proposes research ideas with higher potential impact than baselines. Our findings show that AI can learn scientific taste, marking a key step toward reaching human-level AI scientists.

A IA Pode Desenvolver Paladar Científico

AI Can Learn Scientific Taste

Resumo

Support