MedConclusion: 구조화된 초록에서 생의학 결론 생성을 위한 벤치마크

초록

대규모 언어 모델(LLM)은 연구 집약적인 과제에서 광범위하게 탐구되고 있으나, 구조화된 생물의학 증거로부터 과학적 결론을 추론할 수 있는지 테스트하기 위한 자원은 여전히 제한적입니다. 우리는 생물의학 결론 생성을 위한 570만 개의 PubMed 구조화 초록 대규모 데이터셋인 MedConclusion을 소개합니다. 각 인스턴스는 초록의 비결론 부분과 원저자가 작성한 결론을 짝지어, 증거-결론 추론을 위한 자연 발생적 감독 학습을 제공합니다. MedConclusion은 생물의학 범주 및 SJR과 같은 저널 수준 메타데이터도 포함하여 생물의학 분야 전반의 하위 그룹 분석을 가능하게 합니다. 초기 연구로서, 우리는 결론 및 요약 프롬프트 설정 하에서 다양한 LLM을 평가하고 참조 기반 메트릭과 LLM-as-a-judge를 통해 출력 결과를 채점합니다. 우리는 결론 작성이 요약 작성과 행동적으로 구별되며, 강력한 모델들이 현재의 자동 메트릭 하에서 밀접하게 군집화되어 있고, 평가자 정체성이 절대 점수를 상당히 변화시킬 수 있음을 발견했습니다. MedConclusion은 과학적 증거-결론 추론 연구를 위한 재사용 가능한 데이터 자원을 제공합니다. 우리의 코드와 데이터는 https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion에서 이용 가능합니다.

English

Large language models (LLMs) are widely explored for reasoning-intensive research tasks, yet resources for testing whether they can infer scientific conclusions from structured biomedical evidence remain limited. We introduce MedConclusion, a large-scale dataset of 5.7M PubMed structured abstracts for biomedical conclusion generation. Each instance pairs the non-conclusion sections of an abstract with the original author-written conclusion, providing naturally occurring supervision for evidence-to-conclusion reasoning. MedConclusion also includes journal-level metadata such as biomedical category and SJR, enabling subgroup analysis across biomedical domains. As an initial study, we evaluate diverse LLMs under conclusion and summary prompting settings and score outputs with both reference-based metrics and LLM-as-a-judge. We find that conclusion writing is behaviorally distinct from summary writing, strong models remain closely clustered under current automatic metrics, and judge identity can substantially shift absolute scores. MedConclusion provides a reusable data resource for studying scientific evidence-to-conclusion reasoning. Our code and data are available at: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.

MedConclusion: 구조화된 초록에서 생의학 결론 생성을 위한 벤치마크

MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts

초록

Support