MedConclusion : Un benchmark pour la génération de conclusions biomédicales à partir de résumés structurés

Résumé

Les grands modèles de langage (LLM) sont largement explorés pour des tâches de recherche exigeant un raisonnement, mais les ressources permettant de tester s'ils peuvent inférer des conclusions scientifiques à partir de preuves biomédicales structurées restent limitées. Nous présentons MedConclusion, un jeu de données à grande échelle contenant 5,7 millions de résumés structurés de PubMed pour la génération de conclusions biomédicales. Chaque instance associe les sections non conclusives d'un résumé à la conclusion originale rédigée par l'auteur, fournissant ainsi une supervision naturelle pour le raisonnement allant des preuves à la conclusion. MedConclusion inclut également des métadonnées au niveau de la revue, telles que la catégorie biomédicale et le SJR (SCImago Journal Rank), permettant une analyse par sous-groupes dans les différents domaines biomédicaux. Dans une étude préliminaire, nous évaluons divers LLM dans des contextes d'incitation à la conclusion et au résumé, et nous notons les résultats à la fois avec des métriques basées sur des références et une approche LLM-comme-juge. Nous constatons que la rédaction de conclusions est comportementalement distincte de la rédaction de résumés, que les modèles performants restent étroitement groupés selon les métriques automatiques actuelles, et que l'identité du juge peut modifier substantiellement les scores absolus. MedConclusion constitue une ressource de données réutilisable pour l'étude du raisonnement scientifique allant des preuves à la conclusion. Notre code et nos données sont disponibles à l'adresse : https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.

English

Large language models (LLMs) are widely explored for reasoning-intensive research tasks, yet resources for testing whether they can infer scientific conclusions from structured biomedical evidence remain limited. We introduce MedConclusion, a large-scale dataset of 5.7M PubMed structured abstracts for biomedical conclusion generation. Each instance pairs the non-conclusion sections of an abstract with the original author-written conclusion, providing naturally occurring supervision for evidence-to-conclusion reasoning. MedConclusion also includes journal-level metadata such as biomedical category and SJR, enabling subgroup analysis across biomedical domains. As an initial study, we evaluate diverse LLMs under conclusion and summary prompting settings and score outputs with both reference-based metrics and LLM-as-a-judge. We find that conclusion writing is behaviorally distinct from summary writing, strong models remain closely clustered under current automatic metrics, and judge identity can substantially shift absolute scores. MedConclusion provides a reusable data resource for studying scientific evidence-to-conclusion reasoning. Our code and data are available at: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.

MedConclusion : Un benchmark pour la génération de conclusions biomédicales à partir de résumés structurés

MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts

Résumé

Support