ChatPaper.aiChatPaper

¿Pueden los Modelos de Lenguaje Grandes Desbloquear Ideas Nuevas para la Investigación Científica?

Can Large Language Models Unlock Novel Scientific Research Ideas?

September 10, 2024
Autores: Sandeep Kumar, Tirthankar Ghosal, Vinayak Goyal, Asif Ekbal
cs.AI

Resumen

"Una idea no es más ni menos que una nueva combinación de elementos antiguos" (Young, J.W.). La amplia adopción de Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés) y ChatGPT de acceso público han marcado un punto de inflexión significativo en la integración de la Inteligencia Artificial (IA) en la vida cotidiana de las personas. Este estudio explora la capacidad de los LLMs para generar ideas de investigación novedosas basadas en información de artículos de investigación. Realizamos un examen exhaustivo de 4 LLMs en cinco dominios (por ejemplo, Química, Computación, Economía, Medicina y Física). Descubrimos que las ideas de investigación futuras generadas por Claude-2 y GPT-4 están más alineadas con la perspectiva del autor que las de GPT-3.5 y Gemini. También encontramos que Claude-2 genera ideas de investigación futuras más diversas que GPT-4, GPT-3.5 y Gemini 1.0. Además, realizamos una evaluación humana de la novedad, relevancia y viabilidad de las ideas de investigación futuras generadas. Esta investigación ofrece información sobre el papel en evolución de los LLMs en la generación de ideas, destacando tanto su capacidad como sus limitaciones. Nuestro trabajo contribuye a los esfuerzos en curso para evaluar y utilizar modelos de lenguaje en la generación de ideas de investigación futuras. Ponemos nuestros conjuntos de datos y códigos a disposición del público.
English
"An idea is nothing more nor less than a new combination of old elements" (Young, J.W.). The widespread adoption of Large Language Models (LLMs) and publicly available ChatGPT have marked a significant turning point in the integration of Artificial Intelligence (AI) into people's everyday lives. This study explores the capability of LLMs in generating novel research ideas based on information from research papers. We conduct a thorough examination of 4 LLMs in five domains (e.g., Chemistry, Computer, Economics, Medical, and Physics). We found that the future research ideas generated by Claude-2 and GPT-4 are more aligned with the author's perspective than GPT-3.5 and Gemini. We also found that Claude-2 generates more diverse future research ideas than GPT-4, GPT-3.5, and Gemini 1.0. We further performed a human evaluation of the novelty, relevancy, and feasibility of the generated future research ideas. This investigation offers insights into the evolving role of LLMs in idea generation, highlighting both its capability and limitations. Our work contributes to the ongoing efforts in evaluating and utilizing language models for generating future research ideas. We make our datasets and codes publicly available.

Summary

AI-Generated Summary

PDF148November 16, 2024