번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(LLM)이 인간 수준의 유창함으로 자연어 지시를 따르는 능력은 의료 분야에서 행정적 부담을 줄이고 치료의 질을 향상시킬 수 있는 많은 기회를 제시한다. 그러나 의료 분야에서 현실적인 텍스트 생성 작업에 대한 LLM의 평가는 여전히 어려운 과제로 남아 있다. 전자의무기록(EHR) 데이터에 대한 기존의 질의응답 데이터셋은 임상의가 경험하는 정보 요구와 문서화 부담의 복잡성을 충분히 반영하지 못한다. 이러한 문제를 해결하기 위해, 우리는 EHR 데이터에 대한 983개의 자연어 지시로 구성된 벤치마크 데이터셋인 MedAlign를 소개한다. MedAlign는 15명의 임상의(7개 전문 분야)가 참여하여 구성되었으며, 303개의 지시에 대한 임상의가 작성한 참조 응답을 포함하고, 276개의 종단적 EHR을 제공하여 지시-응답 쌍을 기반으로 한다. 우리는 MedAlign를 사용하여 6개의 일반 도메인 LLM을 평가하고, 임상의가 각 LLM 응답의 정확성과 질을 순위 매기도록 했다. 우리는 GPT-4의 35%부터 MPT-7B-Instruct의 68%까지 높은 오류율을 발견했으며, GPT-4의 컨텍스트 길이를 32k에서 2k로 줄였을 때 정확도가 8.3% 하락하는 것을 확인했다. 마지막으로, 임상의의 순위와 자동화된 자연어 생성 지표 간의 상관관계를 보고하여 인간 검토 없이 LLM을 순위 매기는 방법을 제시한다. 우리는 MedAlign를 연구 데이터 사용 계약 하에 공개하여 임상의의 요구와 선호에 부합하는 작업에 대한 LLM 평가를 가능하게 한다.
특정 시각적 개념의 합성을 피하는 것은 책임 있는 시각적 합성에서 필수적인 과제입니다. 그러나 책임 있는 시각적 합성을 위해 피해야 할 시각적 개념은 지역, 맥락, 사용 시나리오에 따라 다양하게 나타납니다. 본 연구에서는 새로운 과제인 Open-vocabulary Responsible Visual Synthesis (ORES)를 정식화하였습니다. 이 과제에서는 사용자가 원하는 내용을 입력할 수 있으면서도 금지된 시각적 개념을 피할 수 있는 합성 모델을 다룹니다. 이 문제를 해결하기 위해, 우리는 Two-stage Intervention (TIN) 프레임워크를 제안합니다. 이 프레임워크는 1) 대규모 언어 모델(LLM)을 통한 학습 가능한 지시문 재작성과 2) 확산 합성 모델에 대한 프롬프트 개입을 통해 합성을 수행함으로써, 사용자의 쿼리를 최대한 따르면서도 어떠한 개념도 피하는 이미지를 효과적으로 합성할 수 있습니다. ORES를 평가하기 위해, 우리는 공개적으로 이용 가능한 데이터셋, 베이스라인 모델, 벤치마크를 제공합니다. 실험 결과는 우리의 방법이 이미지 생성의 위험을 줄이는 데 효과적임을 보여줍니다. 본 연구는 LLM이 책임 있는 시각적 합성에서 갖는 잠재력을 강조합니다. 우리의 코드와 데이터셋은 공개되어 있습니다.