Entmystifizierung des wissenschaftlichen Problemlösens in LLMs durch Untersuchung von Wissen und logischem Denken
Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning
August 26, 2025
papers.authors: Alan Li, Yixin Liu, Arpan Sarkar, Doug Downey, Arman Cohan
cs.AI
papers.abstract
Die Lösung wissenschaftlicher Probleme stellt einzigartige Herausforderungen für LLMs dar, die sowohl tiefes Fachwissen als auch die Fähigkeit erfordern, dieses Wissen durch komplexes Denken anzuwenden. Obwohl automatisierte wissenschaftliche Problemlöser großes Potenzial für die Unterstützung menschlicher Wissenschaftler bieten, gibt es derzeit keinen weit verbreiteten ganzheitlichen Benchmark zur Bewertung wissenschaftlichen Denkens, und nur wenige Ansätze trennen systematisch die unterschiedlichen Rollen von Wissen und Denken in diesen Aufgaben. Um diese Lücken zu schließen, führen wir SciReas ein, eine vielfältige Sammlung bestehender Benchmarks für wissenschaftliche Denkaufgaben, und SciReas-Pro, eine selektive Teilmenge, die komplexeres Denken erfordert. Unsere ganzheitliche Bewertung bringt Erkenntnisse über die Leistung beim wissenschaftlichen Denken ans Licht, die verborgen bleiben, wenn man sich auf einzelne Benchmarks allein verlässt. Anschließend schlagen wir KRUX vor, ein Untersuchungsframework zur Erforschung der unterschiedlichen Rollen von Denken und Wissen in wissenschaftlichen Aufgaben. In Kombination führen wir eine detaillierte Analyse durch, die mehrere wichtige Erkenntnisse liefert: (1) Das Abrufen aufgabenrelevanten Wissens aus den Modellparametern ist ein kritischer Engpass für LLMs beim wissenschaftlichen Denken; (2) Denkmodelle profitieren durchgängig von externem Wissen, das zusätzlich zur Denkverbesserung im Kontext hinzugefügt wird; (3) Die Verbesserung verbalisierten Denkens steigert die Fähigkeit von LLMs, aufgabenrelevantes Wissen zu erschließen. Schließlich führen wir eine leichtgewichtige Analyse durch, in der wir unsere wissenschaftsorientierte Datenzusammensetzung mit gleichzeitigen Bemühungen zu langem CoT SFT vergleichen, und veröffentlichen SciLit01, eine starke 8B-Basislinie für wissenschaftliches Denken.
English
Scientific problem solving poses unique challenges for LLMs, requiring both
deep domain knowledge and the ability to apply such knowledge through complex
reasoning. While automated scientific reasoners hold great promise for
assisting human scientists, there is currently no widely adopted holistic
benchmark for evaluating scientific reasoning, and few approaches
systematically disentangle the distinct roles of knowledge and reasoning in
these tasks. To address these gaps, we introduce SciReas, a diverse suite of
existing benchmarks for scientific reasoning tasks, and SciReas-Pro, a
selective subset that requires more complex reasoning. Our holistic evaluation
surfaces insights about scientific reasoning performance that remain hidden
when relying on individual benchmarks alone. We then propose KRUX, a probing
framework for studying the distinct roles of reasoning and knowledge in
scientific tasks. Combining the two, we conduct an in-depth analysis that
yields several key findings: (1) Retrieving task-relevant knowledge from model
parameters is a critical bottleneck for LLMs in scientific reasoning; (2)
Reasoning models consistently benefit from external knowledge added in-context
on top of the reasoning enhancement; (3) Enhancing verbalized reasoning
improves LLMs' ability to surface task-relevant knowledge. Finally, we conduct
a lightweight analysis, comparing our science-focused data composition with
concurrent efforts on long CoT SFT, and release SciLit01, a strong 8B baseline
for scientific reasoning.