MedConclusion: Un Benchmark per la Generazione di Conclusioni Biomediche da Abstract Strutturati

Abstract

I grandi modelli linguistici (LLM) sono ampiamente esplorati per compiti di ricerca ad alta intensità di ragionamento, tuttavia le risorse per testare la loro capacità di inferire conclusioni scientifiche a partire da evidenze biomediche strutturate rimangono limitate. Introduciamo MedConclusion, un dataset su larga scala di 5,7 milioni di abstract strutturati di PubMed per la generazione di conclusioni biomediche. Ogni istanza accoppia le sezioni non conclusive di un abstract con la conclusione originale scritta dall'autore, fornendo una supervisione naturalmente presente per il ragionamento da evidenza a conclusione. MedConclusion include anche metadati a livello di rivista, come la categoria biomedica e l'SJR, consentendo analisi di sottogruppi tra diversi domini biomedici. Come studio iniziale, valutiamo diversi LLM in contesti di prompting per la conclusione e per il riassunto, e valutiamo gli output sia con metriche basate su riferimento sia con l'approccio LLM-as-a-judge. Troviamo che la scrittura di conclusioni è comportamentalmente distinta dalla scrittura di riassunti, che i modelli più potenti rimangono strettamente raggruppati sotto le attuali metriche automatiche e che l'identità del giudice può alterare sostanzialmente i punteggi assoluti. MedConclusion fornisce una risorsa dati riutilizzabile per studiare il ragionamento scientifico dall'evidenza alla conclusione. Il nostro codice e i nostri dati sono disponibili al seguente indirizzo: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.

English

Large language models (LLMs) are widely explored for reasoning-intensive research tasks, yet resources for testing whether they can infer scientific conclusions from structured biomedical evidence remain limited. We introduce MedConclusion, a large-scale dataset of 5.7M PubMed structured abstracts for biomedical conclusion generation. Each instance pairs the non-conclusion sections of an abstract with the original author-written conclusion, providing naturally occurring supervision for evidence-to-conclusion reasoning. MedConclusion also includes journal-level metadata such as biomedical category and SJR, enabling subgroup analysis across biomedical domains. As an initial study, we evaluate diverse LLMs under conclusion and summary prompting settings and score outputs with both reference-based metrics and LLM-as-a-judge. We find that conclusion writing is behaviorally distinct from summary writing, strong models remain closely clustered under current automatic metrics, and judge identity can substantially shift absolute scores. MedConclusion provides a reusable data resource for studying scientific evidence-to-conclusion reasoning. Our code and data are available at: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.

MedConclusion: Un Benchmark per la Generazione di Conclusioni Biomediche da Abstract Strutturati

MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts

Abstract

Support