MedConclusion: Een Benchmark voor het Genereren van Biomedische Conclusies uit Gestructureerde Samenvattingen

Samenvatting

Grote taalmodellen (LLM's) worden uitgebreid onderzocht voor onderzoekstaken die intensief redeneren vereisen, maar hulpbronnen om te testen of ze wetenschappelijke conclusies kunnen afleiden uit gestructureerd biomedisch bewijsmateriaal blijven beperkt. Wij introduceren MedConclusion, een grootschalige dataset met 5,7 miljoen gestructureerde samenvattingen van PubMed voor het genereren van biomedische conclusies. Elk voorbeeld koppelt de niet-conclusie secties van een samenvatting aan de oorspronkelijke, door de auteur geschreven conclusie, wat natuurlijk voorkomende supervisie biedt voor redeneren van bewijs naar conclusie. MedConclusion omvat ook metadata op tijdschriftniveau, zoals biomedische categorie en SJR, wat subgroepanalyses over biomedische domeinen heen mogelijk maakt. Als eerste studie evalueren we diverse LLM's onder instellingen voor het aanzetten tot conclusie- en samenvattingsvorming en scoren we de output met zowel referentiegebaseerde metrieken als LLM-als-rechter. Wij constateren dat het schrijven van conclusies zich gedragsmatig onderscheidt van het schrijven van samenvattingen, dat sterke modellen onder de huidige automatische metrieken nauw gegroepeerd blijven, en dat de identiteit van de rechter absolute scores aanzienlijk kan beïnvloeden. MedConclusion biedt een herbruikbare dataresource voor het bestuderen van wetenschappelijk redeneren van bewijs naar conclusie. Onze code en data zijn beschikbaar op: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.

English

Large language models (LLMs) are widely explored for reasoning-intensive research tasks, yet resources for testing whether they can infer scientific conclusions from structured biomedical evidence remain limited. We introduce MedConclusion, a large-scale dataset of 5.7M PubMed structured abstracts for biomedical conclusion generation. Each instance pairs the non-conclusion sections of an abstract with the original author-written conclusion, providing naturally occurring supervision for evidence-to-conclusion reasoning. MedConclusion also includes journal-level metadata such as biomedical category and SJR, enabling subgroup analysis across biomedical domains. As an initial study, we evaluate diverse LLMs under conclusion and summary prompting settings and score outputs with both reference-based metrics and LLM-as-a-judge. We find that conclusion writing is behaviorally distinct from summary writing, strong models remain closely clustered under current automatic metrics, and judge identity can substantially shift absolute scores. MedConclusion provides a reusable data resource for studying scientific evidence-to-conclusion reasoning. Our code and data are available at: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.

MedConclusion: Een Benchmark voor het Genereren van Biomedische Conclusies uit Gestructureerde Samenvattingen

MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts

Samenvatting

Support