MedConclusion: Un Punto de Referencia para la Generación de Conclusiones Biomédicas a partir de Resúmenes Estructurados

Resumen

Los modelos de lenguaje de gran escala (LLM) son ampliamente explorados para tareas de investigación que requieren razonamiento intensivo; sin embargo, los recursos para evaluar si pueden inferir conclusiones científicas a partir de evidencia biomédica estructurada siguen siendo limitados. Presentamos MedConclusion, un conjunto de datos a gran escala de 5,7 millones de resúmenes estructurados de PubMed para la generación de conclusiones biomédicas. Cada instancia empareja las secciones no conclusivas de un resumen con la conclusión original escrita por el autor, proporcionando supervisión natural para el razonamiento de evidencia a conclusión. MedConclusion también incluye metadatos a nivel de revista, como la categoría biomédica y el SJR, lo que permite realizar análisis de subgrupos en distintos dominios biomédicos. Como estudio inicial, evaluamos diversos LLM bajo configuraciones de indicación para conclusión y resumen, y calificamos las salidas tanto con métricas basadas en referencia como con el enfoque de "LLM como juez". Encontramos que la redacción de conclusiones es conductualmente distinta a la de resúmenes, que los modelos más potentes permanecen estrechamente agrupados bajo las métricas automáticas actuales, y que la identidad del juez puede alterar sustancialmente las puntuaciones absolutas. MedConclusion proporciona un recurso de datos reutilizable para estudiar el razonamiento científico de evidencia a conclusión. Nuestro código y datos están disponibles en: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.

English

Large language models (LLMs) are widely explored for reasoning-intensive research tasks, yet resources for testing whether they can infer scientific conclusions from structured biomedical evidence remain limited. We introduce MedConclusion, a large-scale dataset of 5.7M PubMed structured abstracts for biomedical conclusion generation. Each instance pairs the non-conclusion sections of an abstract with the original author-written conclusion, providing naturally occurring supervision for evidence-to-conclusion reasoning. MedConclusion also includes journal-level metadata such as biomedical category and SJR, enabling subgroup analysis across biomedical domains. As an initial study, we evaluate diverse LLMs under conclusion and summary prompting settings and score outputs with both reference-based metrics and LLM-as-a-judge. We find that conclusion writing is behaviorally distinct from summary writing, strong models remain closely clustered under current automatic metrics, and judge identity can substantially shift absolute scores. MedConclusion provides a reusable data resource for studying scientific evidence-to-conclusion reasoning. Our code and data are available at: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.

MedConclusion: Un Punto de Referencia para la Generación de Conclusiones Biomédicas a partir de Resúmenes Estructurados

MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts

Resumen

Support