Perovskite-LLM: Modelos de Linguagem de Grande Escala Aprimorados com Conhecimento para Pesquisa em Células Solares de Perovskita
Perovskite-LLM: Knowledge-Enhanced Large Language Models for Perovskite Solar Cell Research
February 18, 2025
Autores: Xiang Liu, Penglei Sun, Shuyan Chen, Longhan Zhang, Peijie Dong, Huajie You, Yongqi Zhang, Chang Yan, Xiaowen Chu, Tong-yi Zhang
cs.AI
Resumo
O rápido avanço das células solares de perovskita (PSCs) levou a um crescimento exponencial nas publicações de pesquisa, criando uma necessidade urgente de sistemas eficientes de gestão do conhecimento e raciocínio nesse domínio. Apresentamos um sistema abrangente de conhecimento aprimorado para PSCs que integra três componentes principais. Primeiro, desenvolvemos o Perovskite-KG, um grafo de conhecimento específico do domínio construído a partir de 1.517 artigos de pesquisa, contendo 23.789 entidades e 22.272 relações. Segundo, criamos dois conjuntos de dados complementares: o Perovskite-Chat, composto por 55.101 pares de perguntas e respostas de alta qualidade gerados por meio de uma nova estrutura multiagente, e o Perovskite-Reasoning, contendo 2.217 problemas de ciência dos materiais cuidadosamente curados. Terceiro, introduzimos dois modelos de linguagem especializados: o Perovskite-Chat-LLM para assistência de conhecimento específico do domínio e o Perovskite-Reasoning-LLM para tarefas de raciocínio científico. Os resultados experimentais demonstram que nosso sistema supera significativamente os modelos existentes tanto em tarefas de recuperação de conhecimento específico do domínio quanto em tarefas de raciocínio científico, fornecendo aos pesquisadores ferramentas eficazes para revisão de literatura, design experimental e resolução de problemas complexos na pesquisa de PSCs.
English
The rapid advancement of perovskite solar cells (PSCs) has led to an
exponential growth in research publications, creating an urgent need for
efficient knowledge management and reasoning systems in this domain. We present
a comprehensive knowledge-enhanced system for PSCs that integrates three key
components. First, we develop Perovskite-KG, a domain-specific knowledge graph
constructed from 1,517 research papers, containing 23,789 entities and 22,272
relationships. Second, we create two complementary datasets: Perovskite-Chat,
comprising 55,101 high-quality question-answer pairs generated through a novel
multi-agent framework, and Perovskite-Reasoning, containing 2,217 carefully
curated materials science problems. Third, we introduce two specialized large
language models: Perovskite-Chat-LLM for domain-specific knowledge assistance
and Perovskite-Reasoning-LLM for scientific reasoning tasks. Experimental
results demonstrate that our system significantly outperforms existing models
in both domain-specific knowledge retrieval and scientific reasoning tasks,
providing researchers with effective tools for literature review, experimental
design, and complex problem-solving in PSC research.Summary
AI-Generated Summary