의료용 대형 언어 모델은 쉽게 주의가 산만해진다.
Medical large language models are easily distracted
April 1, 2025
저자: Krithik Vishwanath, Anton Alyakin, Daniel Alexander Alber, Jin Vivian Lee, Douglas Kondziolka, Eric Karl Oermann
cs.AI
초록
대형 언어 모델(LLMs)은 의학 분야를 혁신할 잠재력을 가지고 있지만, 실제 임상 시나리오에는 성능을 저해할 수 있는 불필요한 정보가 포함되어 있습니다. 실시간 환자 상담에서 초안 노트를 자동으로 생성하는 앰비언트 디테이션(ambient dictation)과 같은 보조 기술의 등장은 추가적인 노이즈를 유발할 가능성이 있어, LLM이 관련 데이터를 필터링하는 능력을 평가하는 것이 중요해졌습니다. 이를 조사하기 위해 우리는 USMLE 스타일의 질문에 실제와 유사한 방해 요소를 포함한 벤치마크인 MedDistractQA를 개발했습니다. 연구 결과에 따르면, 방해 문장(임상적 의미를 가진 다의어가 비임상적 맥락에서 사용되거나 관련 없는 건강 상태를 언급하는 경우)은 LLM의 정확도를 최대 17.9%까지 감소시킬 수 있습니다. 모델 성능을 개선하기 위해 흔히 제안되는 해결책인 검색 증강 생성(RAG) 및 의학적 미세 조정은 이러한 영향을 바꾸지 못했을 뿐만 아니라, 경우에 따라 자체적인 혼란 요인을 도입하여 성능을 더욱 저하시켰습니다. 우리의 연구 결과는 LLM이 본질적으로 관련 임상 정보와 불필요한 정보를 구분하는 데 필요한 논리적 메커니즘을 갖추지 못하고 있음을 시사하며, 이는 실제 응용에 있어 도전 과제로 작용합니다. MedDistractQA와 우리의 연구 결과는 LLM이 불필요한 정보에 대한 회복력을 강화하기 위한 견고한 완화 전략의 필요성을 강조합니다.
English
Large language models (LLMs) have the potential to transform medicine, but
real-world clinical scenarios contain extraneous information that can hinder
performance. The rise of assistive technologies like ambient dictation, which
automatically generates draft notes from live patient encounters, has the
potential to introduce additional noise making it crucial to assess the ability
of LLM's to filter relevant data. To investigate this, we developed
MedDistractQA, a benchmark using USMLE-style questions embedded with simulated
real-world distractions. Our findings show that distracting statements
(polysemous words with clinical meanings used in a non-clinical context or
references to unrelated health conditions) can reduce LLM accuracy by up to
17.9%. Commonly proposed solutions to improve model performance such as
retrieval-augmented generation (RAG) and medical fine-tuning did not change
this effect and in some cases introduced their own confounders and further
degraded performance. Our findings suggest that LLMs natively lack the logical
mechanisms necessary to distinguish relevant from irrelevant clinical
information, posing challenges for real-world applications. MedDistractQA and
our results highlights the need for robust mitigation strategies to enhance LLM
resilience to extraneous information.