MedConclusion: Um Benchmark para Geração de Conclusões Biomédicas a partir de Resumos Estruturados

Resumo

Os modelos de linguagem de grande escala (LLMs) são amplamente explorados para tarefas de pesquisa que exigem raciocínio complexo, no entanto, os recursos para testar se eles podem inferir conclusões científicas a partir de evidências biomédicas estruturadas permanecem limitados. Apresentamos o MedConclusion, um conjunto de dados em larga escala com 5,7 milhões de resumos estruturados da PubMed para a geração de conclusões biomédicas. Cada instância emparelha as seções não-conclusivas de um resumo com a conclusão original escrita pelo autor, fornecendo uma supervisão naturalmente ocorrente para o raciocínio de evidência-para-conclusão. O MedConclusion também inclui metadados em nível de revista, como categoria biomédica e SJR, permitindo análises de subgrupos entre domínios biomédicos. Como um estudo inicial, avaliamos diversos LLMs sob configurações de prompt para conclusão e resumo, e pontuamos as saídas com métricas baseadas em referência e usando LLM-como-juiz. Descobrimos que a redação de conclusões é comportamentalmente distinta da redação de resumos, modelos fortes permanecem intimamente agrupados sob as métricas automáticas atuais, e a identidade do juiz pode alterar substancialmente as pontuações absolutas. O MedConclusion fornece um recurso de dados reutilizável para estudar o raciocínio científico de evidência-para-conclusão. Nosso código e dados estão disponíveis em: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.

English

Large language models (LLMs) are widely explored for reasoning-intensive research tasks, yet resources for testing whether they can infer scientific conclusions from structured biomedical evidence remain limited. We introduce MedConclusion, a large-scale dataset of 5.7M PubMed structured abstracts for biomedical conclusion generation. Each instance pairs the non-conclusion sections of an abstract with the original author-written conclusion, providing naturally occurring supervision for evidence-to-conclusion reasoning. MedConclusion also includes journal-level metadata such as biomedical category and SJR, enabling subgroup analysis across biomedical domains. As an initial study, we evaluate diverse LLMs under conclusion and summary prompting settings and score outputs with both reference-based metrics and LLM-as-a-judge. We find that conclusion writing is behaviorally distinct from summary writing, strong models remain closely clustered under current automatic metrics, and judge identity can substantially shift absolute scores. MedConclusion provides a reusable data resource for studying scientific evidence-to-conclusion reasoning. Our code and data are available at: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.

MedConclusion: Um Benchmark para Geração de Conclusões Biomédicas a partir de Resumos Estruturados

MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts

Resumo

Support