SciLitLLM : Comment Adapter les LLM pour la Compréhension de la Littérature ScientifiqueSciLitLLM: How to Adapt LLMs for Scientific Literature Understanding
La comprĂ©hension de la littĂ©rature scientifique est cruciale pour extraire des informations ciblĂ©es et obtenir des insights, contribuant ainsi de maniĂšre significative Ă l'avancement de la dĂ©couverte scientifique. MalgrĂ© le succĂšs remarquable des Grands ModĂšles de Langage (GML), ils rencontrent des dĂ©fis dans la comprĂ©hension de la littĂ©rature scientifique, principalement en raison (1) d'un manque de connaissances scientifiques et (2) d'une mĂ©connaissance des tĂąches scientifiques spĂ©cialisĂ©es. Pour dĂ©velopper un GML spĂ©cialisĂ© dans la comprĂ©hension de la littĂ©rature scientifique, nous proposons une stratĂ©gie hybride qui intĂšgre un prĂ©-entraĂźnement continu (PEC) et un affinage supervisĂ© (AS), pour infuser simultanĂ©ment des connaissances du domaine scientifique et amĂ©liorer les capacitĂ©s de suivi des instructions pour des tĂąches spĂ©cifiques au domaine. Dans ce processus, nous identifions deux dĂ©fis majeurs : (1) la construction de corpus de PEC de haute qualitĂ© et (2) la gĂ©nĂ©ration d'instructions diverses pour l'AS. Nous relevons ces dĂ©fis grĂące Ă un pipeline mĂ©ticuleux, comprenant l'extraction de texte PDF, la correction d'erreurs de contenu, le filtrage de la qualitĂ© et la crĂ©ation d'instructions synthĂ©tiques. En appliquant cette stratĂ©gie, nous prĂ©sentons une sĂ©rie de GML : SciLitLLM, spĂ©cialisĂ© dans la comprĂ©hension de la littĂ©rature scientifique. Ces modĂšles dĂ©montrent des performances prometteuses sur des benchmarks de comprĂ©hension de la littĂ©rature scientifique. Nos contributions sont triples : (1) Nous prĂ©sentons un cadre efficace qui intĂšgre le PEC et l'AS pour adapter les GML Ă la comprĂ©hension de la littĂ©rature scientifique, pouvant Ă©galement ĂȘtre facilement adaptĂ© Ă d'autres domaines. (2) Nous proposons une mĂ©thode de synthĂšse basĂ©e sur les GML pour gĂ©nĂ©rer des instructions scientifiques diverses et de haute qualitĂ©, aboutissant Ă un nouvel ensemble d'instructions - SciLitIns - pour l'affinage supervisĂ© dans des domaines scientifiques moins reprĂ©sentĂ©s. (3) SciLitLLM rĂ©alise des amĂ©liorations de performances prometteuses sur des benchmarks de comprĂ©hension de la littĂ©rature scientifique.