La IA puede aprender el gusto científico.

Resumen

Los grandes científicos poseen un juicio y una visión de futuro sólidos, estrechamente vinculados a lo que denominamos gusto científico. En este contexto, utilizamos el término para referirnos a la capacidad de evaluar y proponer ideas de investigación con alto impacto potencial. Sin embargo, la mayoría de las investigaciones relacionadas se centran en mejorar la capacidad ejecutiva de un científico de IA, mientras que la mejora del gusto científico de una IA sigue siendo un área poco explorada. En este trabajo, proponemos el Aprendizaje por Refuerzo a partir de Retroalimentación Comunitaria (RLCF), un paradigma de entrenamiento que utiliza señales comunitarias a gran escala como supervisión, y formulamos el aprendizaje del gusto científico como un problema de modelado y alineación de preferencias. Para el modelado de preferencias, entrenamos a Scientific Judge con 700.000 pares de artículos de alta y baja citación, emparejados por campo y tiempo, para evaluar ideas. Para la alineación de preferencias, utilizando Scientific Judge como modelo de recompensa, entrenamos a un modelo de políticas, Scientific Thinker, para proponer ideas de investigación con alto impacto potencial. Los experimentos muestran que Scientific Judge supera a los LLMs más avanzados (por ejemplo, GPT-5.2, Gemini 3 Pro) y se generaliza a pruebas de años futuros, campos no vistos y preferencias de revisión por pares. Además, Scientific Thinker propone ideas de investigación con un impacto potencial mayor que los métodos de referencia. Nuestros hallazgos demuestran que la IA puede aprender gusto científico, marcando un paso clave hacia el logro de científicos de IA de nivel humano.

English

Great scientists have strong judgement and foresight, closely tied to what we call scientific taste. Here, we use the term to refer to the capacity to judge and propose research ideas with high potential impact. However, most relative research focuses on improving an AI scientist's executive capability, while enhancing an AI's scientific taste remains underexplored. In this work, we propose Reinforcement Learning from Community Feedback (RLCF), a training paradigm that uses large-scale community signals as supervision, and formulate scientific taste learning as a preference modeling and alignment problem. For preference modeling, we train Scientific Judge on 700K field- and time-matched pairs of high- vs. low-citation papers to judge ideas. For preference alignment, using Scientific Judge as a reward model, we train a policy model, Scientific Thinker, to propose research ideas with high potential impact. Experiments show Scientific Judge outperforms SOTA LLMs (e.g., GPT-5.2, Gemini 3 Pro) and generalizes to future-year test, unseen fields, and peer-review preference. Furthermore, Scientific Thinker proposes research ideas with higher potential impact than baselines. Our findings show that AI can learn scientific taste, marking a key step toward reaching human-level AI scientists.

La IA puede aprender el gusto científico.

AI Can Learn Scientific Taste

Resumen

Support