MedConclusion: Бенчмарк для генерации биомедицинских выводов из структурированных рефератов

Аннотация

Крупные языковые модели (LLMs) активно исследуются для решения задач, требующих сложных рассуждений, однако ресурсы для проверки их способности делать научные выводы на основе структурированных биомедицинских данных остаются ограниченными. Мы представляем MedConclusion — масштабный набор данных, содержащий 5,7 млн структурированных рефератов из PubMed для генерации биомедицинских заключений. Каждый пример связывает разделы реферата, не содержащие заключения, с оригинальным заключением, написанным автором, что обеспечивает естественный надзор для логического перехода от доказательств к выводам. MedConclusion также включает метаданные на уровне журналов, такие как биомедицинская категория и SJR (SCImago Journal Rank), что позволяет проводить анализ подгрупп в различных биомедицинских областях. В рамках начального исследования мы оцениваем различные LLM в условиях prompting для заключения и суммаризации, а также оцениваем выходные данные с помощью как метрик, основанных на эталоне, так и подхода LLM-as-a-judge. Мы обнаружили, что написание заключения поведенчески отличается от написания резюме, что сильные модели остаются тесно сгруппированными согласно текущим автоматическим метрикам, и что личность "судьи" (модели-оценщика) может существенно смещать абсолютные оценки. MedConclusion предоставляет многократно используемый ресурс данных для изучения логического перехода от научных доказательств к выводам. Наш код и данные доступны по адресу: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.

English

Large language models (LLMs) are widely explored for reasoning-intensive research tasks, yet resources for testing whether they can infer scientific conclusions from structured biomedical evidence remain limited. We introduce MedConclusion, a large-scale dataset of 5.7M PubMed structured abstracts for biomedical conclusion generation. Each instance pairs the non-conclusion sections of an abstract with the original author-written conclusion, providing naturally occurring supervision for evidence-to-conclusion reasoning. MedConclusion also includes journal-level metadata such as biomedical category and SJR, enabling subgroup analysis across biomedical domains. As an initial study, we evaluate diverse LLMs under conclusion and summary prompting settings and score outputs with both reference-based metrics and LLM-as-a-judge. We find that conclusion writing is behaviorally distinct from summary writing, strong models remain closely clustered under current automatic metrics, and judge identity can substantially shift absolute scores. MedConclusion provides a reusable data resource for studying scientific evidence-to-conclusion reasoning. Our code and data are available at: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.

MedConclusion: Бенчмарк для генерации биомедицинских выводов из структурированных рефератов

MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts

Аннотация

Support