Perovskite-LLM: Modelos de Lenguaje de Gran Escala Mejorados con Conocimiento para la Investigación de Células Solares de Perovskita
Perovskite-LLM: Knowledge-Enhanced Large Language Models for Perovskite Solar Cell Research
February 18, 2025
Autores: Xiang Liu, Penglei Sun, Shuyan Chen, Longhan Zhang, Peijie Dong, Huajie You, Yongqi Zhang, Chang Yan, Xiaowen Chu, Tong-yi Zhang
cs.AI
Resumen
El rápido avance de las células solares de perovskita (PSC, por sus siglas en inglés) ha generado un crecimiento exponencial en las publicaciones de investigación, creando una necesidad urgente de sistemas eficientes de gestión del conocimiento y razonamiento en este dominio. Presentamos un sistema integral de conocimiento mejorado para PSC que integra tres componentes clave. En primer lugar, desarrollamos Perovskite-KG, un grafo de conocimiento específico del dominio construido a partir de 1,517 artículos de investigación, que contiene 23,789 entidades y 22,272 relaciones. En segundo lugar, creamos dos conjuntos de datos complementarios: Perovskite-Chat, que comprende 55,101 pares de preguntas y respuestas de alta calidad generados a través de un novedoso marco de trabajo multiagente, y Perovskite-Reasoning, que contiene 2,217 problemas de ciencia de materiales cuidadosamente seleccionados. En tercer lugar, introducimos dos modelos de lenguaje especializados de gran escala: Perovskite-Chat-LLM para asistencia de conocimiento específico del dominio y Perovskite-Reasoning-LLM para tareas de razonamiento científico. Los resultados experimentales demuestran que nuestro sistema supera significativamente a los modelos existentes tanto en la recuperación de conocimiento específico del dominio como en tareas de razonamiento científico, proporcionando a los investigadores herramientas efectivas para la revisión de literatura, diseño experimental y resolución de problemas complejos en la investigación de PSC.
English
The rapid advancement of perovskite solar cells (PSCs) has led to an
exponential growth in research publications, creating an urgent need for
efficient knowledge management and reasoning systems in this domain. We present
a comprehensive knowledge-enhanced system for PSCs that integrates three key
components. First, we develop Perovskite-KG, a domain-specific knowledge graph
constructed from 1,517 research papers, containing 23,789 entities and 22,272
relationships. Second, we create two complementary datasets: Perovskite-Chat,
comprising 55,101 high-quality question-answer pairs generated through a novel
multi-agent framework, and Perovskite-Reasoning, containing 2,217 carefully
curated materials science problems. Third, we introduce two specialized large
language models: Perovskite-Chat-LLM for domain-specific knowledge assistance
and Perovskite-Reasoning-LLM for scientific reasoning tasks. Experimental
results demonstrate that our system significantly outperforms existing models
in both domain-specific knowledge retrieval and scientific reasoning tasks,
providing researchers with effective tools for literature review, experimental
design, and complex problem-solving in PSC research.Summary
AI-Generated Summary