임상 텍스트 요약: 대규모 언어 모델 적응이 인간 전문가를 능가할 수 있다
Clinical Text Summarization: Adapting Large Language Models Can Outperform Human Experts
September 14, 2023
저자: Dave Van Veen, Cara Van Uden, Louis Blankemeier, Jean-Benoit Delbrouck, Asad Aali, Christian Bluethgen, Anuj Pareek, Malgorzata Polacin, William Collins, Neera Ahuja, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, John Pauly, Akshay S. Chaudhari
cs.AI
초록
방대한 텍스트 데이터를 샅샅이 살펴보고 핵심 정보를 요약하는 작업은 임상의들이 시간을 할애하는 방식에 상당한 부담을 줍니다. 대규모 언어 모델(LLM)이 자연어 처리(NLP) 작업에서 엄청난 잠재력을 보여주고 있지만, 다양한 임상 요약 작업에서의 효과는 아직 엄격하게 검증되지 않았습니다. 본 연구에서는 8개의 LLM에 도메인 적응 방법을 적용하여, 6개의 데이터셋과 4가지 구체적인 요약 작업(영상의학 보고서, 환자 질문, 진료 기록, 의사-환자 대화)을 수행했습니다. 철저한 정량적 평가를 통해 모델과 적응 방법 간의 트레이드오프를 밝혀냈으며, 최근의 LLM 발전이 개선된 결과로 이어지지 않는 사례도 확인했습니다. 더 나아가, 6명의 의사를 대상으로 한 임상 독자 연구에서 최적화된 LLM이 생성한 요약이 인간이 작성한 요약보다 완전성과 정확성 측면에서 더 우수한 것으로 나타났습니다. 이어지는 질적 분석에서는 LLM과 인간 전문가가 공통적으로 직면하는 과제를 명확히 했습니다. 마지막으로, 전통적인 정량적 NLP 지표와 독자 연구 점수를 연관시켜 이러한 지표가 의사들의 선호도와 어떻게 일치하는지에 대한 이해를 높였습니다. 본 연구는 여러 임상 텍스트 요약 작업에서 LLM이 인간 전문가를 능가하는 첫 번째 증거를 제시합니다. 이는 LLM을 임상 업무 흐름에 통합함으로써 문서 작업 부담을 줄이고, 임상의들이 개인 맞춤형 환자 치료 및 의학의 다른 대체 불가능한 인간적 측면에 더 집중할 수 있도록 할 수 있음을 시사합니다.
English
Sifting through vast textual data and summarizing key information imposes a
substantial burden on how clinicians allocate their time. Although large
language models (LLMs) have shown immense promise in natural language
processing (NLP) tasks, their efficacy across diverse clinical summarization
tasks has not yet been rigorously examined. In this work, we employ domain
adaptation methods on eight LLMs, spanning six datasets and four distinct
summarization tasks: radiology reports, patient questions, progress notes, and
doctor-patient dialogue. Our thorough quantitative assessment reveals
trade-offs between models and adaptation methods in addition to instances where
recent advances in LLMs may not lead to improved results. Further, in a
clinical reader study with six physicians, we depict that summaries from the
best adapted LLM are preferable to human summaries in terms of completeness and
correctness. Our ensuing qualitative analysis delineates mutual challenges
faced by both LLMs and human experts. Lastly, we correlate traditional
quantitative NLP metrics with reader study scores to enhance our understanding
of how these metrics align with physician preferences. Our research marks the
first evidence of LLMs outperforming human experts in clinical text
summarization across multiple tasks. This implies that integrating LLMs into
clinical workflows could alleviate documentation burden, empowering clinicians
to focus more on personalized patient care and other irreplaceable human
aspects of medicine.