Desmitificando la Resolución de Problemas Científicos en LLMs mediante el Análisis de Conocimiento y Razonamiento
Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning
August 26, 2025
Autores: Alan Li, Yixin Liu, Arpan Sarkar, Doug Downey, Arman Cohan
cs.AI
Resumen
La resolución de problemas científicos plantea desafíos únicos para los LLM, ya que requieren tanto un profundo conocimiento del dominio como la capacidad de aplicar dicho conocimiento a través de razonamientos complejos. Aunque los sistemas automatizados de razonamiento científico tienen un gran potencial para asistir a los científicos humanos, actualmente no existe un punto de referencia holístico ampliamente adoptado para evaluar el razonamiento científico, y pocos enfoques desentrañan sistemáticamente los roles distintos del conocimiento y el razonamiento en estas tareas. Para abordar estas brechas, presentamos SciReas, un conjunto diverso de puntos de referencia existentes para tareas de razonamiento científico, y SciReas-Pro, un subconjunto selectivo que requiere un razonamiento más complejo. Nuestra evaluación holística revela insights sobre el desempeño en razonamiento científico que permanecen ocultos al depender únicamente de puntos de referencia individuales. Luego, proponemos KRUX, un marco de sondeo para estudiar los roles distintos del razonamiento y el conocimiento en tareas científicas. Combinando ambos, realizamos un análisis en profundidad que arroja varios hallazgos clave: (1) Recuperar conocimiento relevante para la tarea a partir de los parámetros del modelo es un cuello de botella crítico para los LLM en el razonamiento científico; (2) Los modelos de razonamiento se benefician consistentemente de la adición de conocimiento externo en contexto, además de la mejora en el razonamiento; (3) Mejorar el razonamiento verbalizado aumenta la capacidad de los LLM para resaltar conocimiento relevante para la tarea. Finalmente, realizamos un análisis ligero, comparando nuestra composición de datos centrada en la ciencia con esfuerzos concurrentes en SFT de CoT largo, y lanzamos SciLit01, una sólida línea base de 8B para el razonamiento científico.
English
Scientific problem solving poses unique challenges for LLMs, requiring both
deep domain knowledge and the ability to apply such knowledge through complex
reasoning. While automated scientific reasoners hold great promise for
assisting human scientists, there is currently no widely adopted holistic
benchmark for evaluating scientific reasoning, and few approaches
systematically disentangle the distinct roles of knowledge and reasoning in
these tasks. To address these gaps, we introduce SciReas, a diverse suite of
existing benchmarks for scientific reasoning tasks, and SciReas-Pro, a
selective subset that requires more complex reasoning. Our holistic evaluation
surfaces insights about scientific reasoning performance that remain hidden
when relying on individual benchmarks alone. We then propose KRUX, a probing
framework for studying the distinct roles of reasoning and knowledge in
scientific tasks. Combining the two, we conduct an in-depth analysis that
yields several key findings: (1) Retrieving task-relevant knowledge from model
parameters is a critical bottleneck for LLMs in scientific reasoning; (2)
Reasoning models consistently benefit from external knowledge added in-context
on top of the reasoning enhancement; (3) Enhancing verbalized reasoning
improves LLMs' ability to surface task-relevant knowledge. Finally, we conduct
a lightweight analysis, comparing our science-focused data composition with
concurrent efforts on long CoT SFT, and release SciLit01, a strong 8B baseline
for scientific reasoning.