MedConclusion: Ein Benchmark für die biomedizinische Fazitgenerierung aus strukturierten Abstracts

Zusammenfassung

Große Sprachmodelle (LLMs) werden intensiv für forschungsintensive Aufgaben untersuchtigt, doch Ressourcen zum Testen, ob sie wissenschaftliche Schlussfolgerungen aus strukturierten biomedizinischen Evidenzen ableiten können, bleiben begrenzt. Wir stellen MedConclusion vor, einen umfangreichen Datensatz mit 5,7 Millionen strukturierten Abstracts aus PubMed zur biomedizinischen Schlussfolgerungsgenerierung. Jeder Eintrag kombiniert die Abschnitte eines Abstracts ohne Schlussfolgerung mit der ursprünglichen, vom Autor verfassten Konklusion und bietet so eine natürlich vorkommende Grundlage für Evidenz-zu-Schlussfolgerungs-Argumentation. MedConclusion umfasst auch Metadaten auf Zeitschriftenebene wie biomedizinische Kategorie und SJR, was Subgruppenanalysen über biomedizinische Domänen hinweg ermöglicht. In einer ersten Studie evaluieren wir diverse LLMs unter Prompting-Einstellungen für Schlussfolgerungen und Zusammenfassungen und bewerten die Ausgaben sowohl mit referenzbasierten Metriken als auch mittels LLM-als-Gutachter. Wir stellen fest, dass das Verfassen von Schlussfolgerungen sich verhaltensmäßig vom Schreiben von Zusammenfassungen unterscheidet, starke Modelle unter aktuellen automatischen Metriken eng beieinander liegen und die Identität des Gutachters die absoluten Bewertungen erheblich verschieben kann. MedConclusion stellt eine wiederverwendbare Datenressource zur Erforschung wissenschaftlicher Evidenz-zu-Schlussfolgerungs-Argumentation bereit. Unser Code und unsere Daten sind verfügbar unter: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.

English

Large language models (LLMs) are widely explored for reasoning-intensive research tasks, yet resources for testing whether they can infer scientific conclusions from structured biomedical evidence remain limited. We introduce MedConclusion, a large-scale dataset of 5.7M PubMed structured abstracts for biomedical conclusion generation. Each instance pairs the non-conclusion sections of an abstract with the original author-written conclusion, providing naturally occurring supervision for evidence-to-conclusion reasoning. MedConclusion also includes journal-level metadata such as biomedical category and SJR, enabling subgroup analysis across biomedical domains. As an initial study, we evaluate diverse LLMs under conclusion and summary prompting settings and score outputs with both reference-based metrics and LLM-as-a-judge. We find that conclusion writing is behaviorally distinct from summary writing, strong models remain closely clustered under current automatic metrics, and judge identity can substantially shift absolute scores. MedConclusion provides a reusable data resource for studying scientific evidence-to-conclusion reasoning. Our code and data are available at: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.

MedConclusion: Ein Benchmark für die biomedizinische Fazitgenerierung aus strukturierten Abstracts

MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts

Zusammenfassung

Support