ChatPaper.aiChatPaper

Desmitificando la Resolución de Problemas Científicos en LLMs mediante el Análisis de Conocimiento y Razonamiento

Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning

August 26, 2025
Autores: Alan Li, Yixin Liu, Arpan Sarkar, Doug Downey, Arman Cohan
cs.AI

Resumen

La resolución de problemas científicos plantea desafíos únicos para los LLM, ya que requieren tanto un profundo conocimiento del dominio como la capacidad de aplicar dicho conocimiento a través de razonamientos complejos. Aunque los sistemas automatizados de razonamiento científico tienen un gran potencial para asistir a los científicos humanos, actualmente no existe un punto de referencia holístico ampliamente adoptado para evaluar el razonamiento científico, y pocos enfoques desentrañan sistemáticamente los roles distintos del conocimiento y el razonamiento en estas tareas. Para abordar estas brechas, presentamos SciReas, un conjunto diverso de puntos de referencia existentes para tareas de razonamiento científico, y SciReas-Pro, un subconjunto selectivo que requiere un razonamiento más complejo. Nuestra evaluación holística revela insights sobre el desempeño en razonamiento científico que permanecen ocultos al depender únicamente de puntos de referencia individuales. Luego, proponemos KRUX, un marco de sondeo para estudiar los roles distintos del razonamiento y el conocimiento en tareas científicas. Combinando ambos, realizamos un análisis en profundidad que arroja varios hallazgos clave: (1) Recuperar conocimiento relevante para la tarea a partir de los parámetros del modelo es un cuello de botella crítico para los LLM en el razonamiento científico; (2) Los modelos de razonamiento se benefician consistentemente de la adición de conocimiento externo en contexto, además de la mejora en el razonamiento; (3) Mejorar el razonamiento verbalizado aumenta la capacidad de los LLM para resaltar conocimiento relevante para la tarea. Finalmente, realizamos un análisis ligero, comparando nuestra composición de datos centrada en la ciencia con esfuerzos concurrentes en SFT de CoT largo, y lanzamos SciLit01, una sólida línea base de 8B para el razonamiento científico.
English
Scientific problem solving poses unique challenges for LLMs, requiring both deep domain knowledge and the ability to apply such knowledge through complex reasoning. While automated scientific reasoners hold great promise for assisting human scientists, there is currently no widely adopted holistic benchmark for evaluating scientific reasoning, and few approaches systematically disentangle the distinct roles of knowledge and reasoning in these tasks. To address these gaps, we introduce SciReas, a diverse suite of existing benchmarks for scientific reasoning tasks, and SciReas-Pro, a selective subset that requires more complex reasoning. Our holistic evaluation surfaces insights about scientific reasoning performance that remain hidden when relying on individual benchmarks alone. We then propose KRUX, a probing framework for studying the distinct roles of reasoning and knowledge in scientific tasks. Combining the two, we conduct an in-depth analysis that yields several key findings: (1) Retrieving task-relevant knowledge from model parameters is a critical bottleneck for LLMs in scientific reasoning; (2) Reasoning models consistently benefit from external knowledge added in-context on top of the reasoning enhancement; (3) Enhancing verbalized reasoning improves LLMs' ability to surface task-relevant knowledge. Finally, we conduct a lightweight analysis, comparing our science-focused data composition with concurrent efforts on long CoT SFT, and release SciLit01, a strong 8B baseline for scientific reasoning.
PDF32August 27, 2025