ChatPaper.aiChatPaper

OralGPT-Omni: 다목적 치과용 멀티모달 대규모 언어 모델

OralGPT-Omni: A Versatile Dental Multimodal Large Language Model

November 27, 2025
저자: Jing Hao, Yuci Liang, Lizhuo Lin, Yuxuan Fan, Wenkai Zhou, Kaixin Guo, Zanting Ye, Yanpeng Sun, Xinyu Zhang, Yanqi Yang, Qiankun Li, Hao Tang, James Kit-Hon Tsoi, Linlin Shen, Kuo Feng Hung
cs.AI

초록

멀티모달 대규모 언어 모델(MLLMs)은 다양한 의료 분야에서 막대한 잠재력을 보여왔지만, 치과 분야는 도메인 특화 데이터의 부족, 치과 전문가 주석의 희소성, 양식별 모델링의 불충분, 신뢰성 문제 등으로 인해 상대적으로 덜 탐구되어 왔습니다. 본 논문에서는 다양한 치과 영상 양식과 임상 과전에 걸쳐 포괄적이고 신뢰할 수 있는 분석을 위해 설계된 최초의 치과 특화 MLLM인 OralGPT-Omni를 제안합니다. 치과 의사의 진단 추론 과정을 명시적으로 포착하기 위해, 우리는 치과 방사선 전문의의 의사 결정 과정을 반영하는 임상 기반 연쇄 사고(Chain-of-Thought) 데이터셋인 TRACE-CoT를 구축했습니다. 이러한 추론 지도(Supervision)와 우리가 제안하는 4단계 학습 패러다임을 결합함으로써 모델의 치과 영상 이해 및 분석 능력을 크게 강화했습니다. 동시에, 우리는 치과 영상 분석을 위한 최초의 통합 멀티모달 벤치마크인 MMOral-Uni를 소개합니다. 이 벤치마크는 5가지 영상 양식과 5가지 과업에 걸친 2,809개의 개방형 질문-답변 쌍으로 구성되어 디지털 치과에서 MLLMs를 평가하기 위한 현재까지 가장 포괄적인 평가 도구를 제공합니다. OralGPT-Omni는 MMOral-Uni 벤치마크에서 51.84점, MMOral-OPG 벤치마크에서 45.31점의 종합 점수를 달성하여 GPT-5의 점수를 크게 능가했습니다. 우리의 연구는 지능형 치과의학을 촉진하고 치과 영상 분석의 미래 발전을 위한 길을 열어줄 것입니다. 모든 코드, 벤치마크 및 모델은 공개될 예정입니다.
English
Multimodal Large Language Models (MLLMs) have exhibited immense potential across numerous medical specialties; yet, dentistry remains underexplored, in part due to limited domain-specific data, scarce dental expert annotations, insufficient modality-specific modeling, and challenges in reliability. In this paper, we present OralGPT-Omni, the first dental-specialized MLLM designed for comprehensive and trustworthy analysis across diverse dental imaging modalities and clinical tasks. To explicitly capture dentists' diagnostic reasoning, we construct TRACE-CoT, a clinically grounded chain-of-thought dataset that mirrors dental radiologists' decision-making processes. This reasoning supervision, combined with our proposed four-stage training paradigm, substantially strengthens the model's capacity for dental image understanding and analysis. In parallel, we introduce MMOral-Uni, the first unified multimodal benchmark for dental image analysis. It comprises 2,809 open-ended question-answer pairs spanning five modalities and five tasks, offering a comprehensive evaluation suite to date for MLLMs in digital dentistry. OralGPT-Omni achieves an overall score of 51.84 on the MMOral-Uni benchmark and 45.31 on the MMOral-OPG benchmark, dramatically outperforming the scores of GPT-5. Our work promotes intelligent dentistry and paves the way for future advances in dental image analysis. All code, benchmark, and models will be made publicly available.
PDF51December 2, 2025