OralGPT-Omni: Een Veelzijdig Dentaal Multimodaal Taalmodel
OralGPT-Omni: A Versatile Dental Multimodal Large Language Model
November 27, 2025
Auteurs: Jing Hao, Yuci Liang, Lizhuo Lin, Yuxuan Fan, Wenkai Zhou, Kaixin Guo, Zanting Ye, Yanpeng Sun, Xinyu Zhang, Yanqi Yang, Qiankun Li, Hao Tang, James Kit-Hon Tsoi, Linlin Shen, Kuo Feng Hung
cs.AI
Samenvatting
Multimodale Large Language Models (MLLM's) hebben een enorm potentieel getoond in tal van medische specialismen; toch blijft de tandheelkunde onderbelicht, deels vanwege beperkte domeinspecifieke data, schaarse annotaties door tandheelkundige experts, onvoldoende modaal-specifieke modellering en uitdagingen op het gebied van betrouwbaarheid. In dit artikel introduceren we OralGPT-Omni, de eerste tandheelkundig gespecialiseerde MLLM die is ontworpen voor uitgebreide en betrouwbare analyse van diverse tandheelkundige beeldvormingsmodaliteiten en klinische taken. Om de diagnostische redenering van tandartsen expliciet vast te leggen, construeren we TRACE-CoT, een klinisch onderbouwd chain-of-thought-databestand dat het besluitvormingsproces van dentale radiologen weerspiegelt. Deze redeneersupervisie, gecombineerd met ons voorgestelde vierfasen-trainingsparadigma, versterkt de capaciteit van het model voor het begrijpen en analyseren van tandheelkundige beelden aanzienlijk. Tegelijkertijd introduceren we MMOral-Uni, de eerste verenigde multimodale benchmark voor tandheelkundige beeldanalyse. Deze omvat 2.809 open vraag-antwoordparen verspreid over vijf modaliteiten en vijf taken, en biedt daarmee de meest uitgebreide evaluatiesuite tot nu toe voor MLLM's in de digitale tandheelkunde. OralGPT-Omni behaalt een algemene score van 51,84 op de MMOral-Uni-benchmark en 45,31 op de MMOral-OPG-benchmark, waarmee het de scores van GPT-5 aanzienlijk overtreft. Ons werk bevordert de intelligente tandheelkunde en baant de weg voor toekomstige vooruitgang in de tandheelkundige beeldanalyse. Alle code, benchmarks en modellen zullen openbaar beschikbaar worden gesteld.
English
Multimodal Large Language Models (MLLMs) have exhibited immense potential across numerous medical specialties; yet, dentistry remains underexplored, in part due to limited domain-specific data, scarce dental expert annotations, insufficient modality-specific modeling, and challenges in reliability. In this paper, we present OralGPT-Omni, the first dental-specialized MLLM designed for comprehensive and trustworthy analysis across diverse dental imaging modalities and clinical tasks. To explicitly capture dentists' diagnostic reasoning, we construct TRACE-CoT, a clinically grounded chain-of-thought dataset that mirrors dental radiologists' decision-making processes. This reasoning supervision, combined with our proposed four-stage training paradigm, substantially strengthens the model's capacity for dental image understanding and analysis. In parallel, we introduce MMOral-Uni, the first unified multimodal benchmark for dental image analysis. It comprises 2,809 open-ended question-answer pairs spanning five modalities and five tasks, offering a comprehensive evaluation suite to date for MLLMs in digital dentistry. OralGPT-Omni achieves an overall score of 51.84 on the MMOral-Uni benchmark and 45.31 on the MMOral-OPG benchmark, dramatically outperforming the scores of GPT-5. Our work promotes intelligent dentistry and paves the way for future advances in dental image analysis. All code, benchmark, and models will be made publicly available.