Demistificare la Risoluzione di Problemi Scientifici nei Modelli Linguistici di Grande Dimensione attraverso l'Analisi di Conoscenza e Ragionamento

Abstract

La risoluzione di problemi scientifici presenta sfide uniche per i modelli linguistici di grandi dimensioni (LLMs), richiedendo sia una profonda conoscenza del dominio che la capacità di applicare tale conoscenza attraverso ragionamenti complessi. Sebbene i sistemi automatizzati di ragionamento scientifico promettano di essere di grande aiuto per gli scienziati umani, attualmente non esiste un benchmark olistico ampiamente adottato per valutare il ragionamento scientifico, e pochi approcci separano sistematicamente i ruoli distinti della conoscenza e del ragionamento in questi compiti. Per colmare queste lacune, introduciamo SciReas, una suite diversificata di benchmark esistenti per compiti di ragionamento scientifico, e SciReas-Pro, un sottoinsieme selettivo che richiede un ragionamento più complesso. La nostra valutazione olistica rivela intuizioni sulle prestazioni del ragionamento scientifico che rimangono nascoste quando ci si affida a singoli benchmark. Proponiamo poi KRUX, un framework di analisi per studiare i ruoli distinti del ragionamento e della conoscenza nei compiti scientifici. Combinando i due, conduciamo un'analisi approfondita che produce diversi risultati chiave: (1) Il recupero della conoscenza rilevante per il compito dai parametri del modello rappresenta un collo di bottiglia critico per gli LLMs nel ragionamento scientifico; (2) I modelli di ragionamento traggono costantemente beneficio dalla conoscenza esterna aggiunta in-context, oltre al miglioramento del ragionamento; (3) Migliorare il ragionamento verbalizzato aumenta la capacità degli LLMs di far emergere la conoscenza rilevante per il compito. Infine, conduciamo un'analisi leggera, confrontando la nostra composizione di dati focalizzata sulla scienza con gli sforzi contemporanei sul long CoT SFT, e rilasciamo SciLit01, un solido baseline da 8B per il ragionamento scientifico.

English

Scientific problem solving poses unique challenges for LLMs, requiring both deep domain knowledge and the ability to apply such knowledge through complex reasoning. While automated scientific reasoners hold great promise for assisting human scientists, there is currently no widely adopted holistic benchmark for evaluating scientific reasoning, and few approaches systematically disentangle the distinct roles of knowledge and reasoning in these tasks. To address these gaps, we introduce SciReas, a diverse suite of existing benchmarks for scientific reasoning tasks, and SciReas-Pro, a selective subset that requires more complex reasoning. Our holistic evaluation surfaces insights about scientific reasoning performance that remain hidden when relying on individual benchmarks alone. We then propose KRUX, a probing framework for studying the distinct roles of reasoning and knowledge in scientific tasks. Combining the two, we conduct an in-depth analysis that yields several key findings: (1) Retrieving task-relevant knowledge from model parameters is a critical bottleneck for LLMs in scientific reasoning; (2) Reasoning models consistently benefit from external knowledge added in-context on top of the reasoning enhancement; (3) Enhancing verbalized reasoning improves LLMs' ability to surface task-relevant knowledge. Finally, we conduct a lightweight analysis, comparing our science-focused data composition with concurrent efforts on long CoT SFT, and release SciLit01, a strong 8B baseline for scientific reasoning.

Demistificare la Risoluzione di Problemi Scientifici nei Modelli Linguistici di Grande Dimensione attraverso l'Analisi di Conoscenza e Ragionamento

Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning

Abstract

Support