Demistificare la Risoluzione di Problemi Scientifici nei Modelli Linguistici di Grande Dimensione attraverso l'Analisi di Conoscenza e Ragionamento
Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning
August 26, 2025
Autori: Alan Li, Yixin Liu, Arpan Sarkar, Doug Downey, Arman Cohan
cs.AI
Abstract
La risoluzione di problemi scientifici presenta sfide uniche per i modelli linguistici di grandi dimensioni (LLMs), richiedendo sia una profonda conoscenza del dominio che la capacità di applicare tale conoscenza attraverso ragionamenti complessi. Sebbene i sistemi automatizzati di ragionamento scientifico promettano di essere di grande aiuto per gli scienziati umani, attualmente non esiste un benchmark olistico ampiamente adottato per valutare il ragionamento scientifico, e pochi approcci separano sistematicamente i ruoli distinti della conoscenza e del ragionamento in questi compiti. Per colmare queste lacune, introduciamo SciReas, una suite diversificata di benchmark esistenti per compiti di ragionamento scientifico, e SciReas-Pro, un sottoinsieme selettivo che richiede un ragionamento più complesso. La nostra valutazione olistica rivela intuizioni sulle prestazioni del ragionamento scientifico che rimangono nascoste quando ci si affida a singoli benchmark. Proponiamo poi KRUX, un framework di analisi per studiare i ruoli distinti del ragionamento e della conoscenza nei compiti scientifici. Combinando i due, conduciamo un'analisi approfondita che produce diversi risultati chiave: (1) Il recupero della conoscenza rilevante per il compito dai parametri del modello rappresenta un collo di bottiglia critico per gli LLMs nel ragionamento scientifico; (2) I modelli di ragionamento traggono costantemente beneficio dalla conoscenza esterna aggiunta in-context, oltre al miglioramento del ragionamento; (3) Migliorare il ragionamento verbalizzato aumenta la capacità degli LLMs di far emergere la conoscenza rilevante per il compito. Infine, conduciamo un'analisi leggera, confrontando la nostra composizione di dati focalizzata sulla scienza con gli sforzi contemporanei sul long CoT SFT, e rilasciamo SciLit01, un solido baseline da 8B per il ragionamento scientifico.
English
Scientific problem solving poses unique challenges for LLMs, requiring both
deep domain knowledge and the ability to apply such knowledge through complex
reasoning. While automated scientific reasoners hold great promise for
assisting human scientists, there is currently no widely adopted holistic
benchmark for evaluating scientific reasoning, and few approaches
systematically disentangle the distinct roles of knowledge and reasoning in
these tasks. To address these gaps, we introduce SciReas, a diverse suite of
existing benchmarks for scientific reasoning tasks, and SciReas-Pro, a
selective subset that requires more complex reasoning. Our holistic evaluation
surfaces insights about scientific reasoning performance that remain hidden
when relying on individual benchmarks alone. We then propose KRUX, a probing
framework for studying the distinct roles of reasoning and knowledge in
scientific tasks. Combining the two, we conduct an in-depth analysis that
yields several key findings: (1) Retrieving task-relevant knowledge from model
parameters is a critical bottleneck for LLMs in scientific reasoning; (2)
Reasoning models consistently benefit from external knowledge added in-context
on top of the reasoning enhancement; (3) Enhancing verbalized reasoning
improves LLMs' ability to surface task-relevant knowledge. Finally, we conduct
a lightweight analysis, comparing our science-focused data composition with
concurrent efforts on long CoT SFT, and release SciLit01, a strong 8B baseline
for scientific reasoning.