ChatPaper.aiChatPaper

OralGPT-Omni: un modello linguistico multimodale versatile per l'odontoiatria

OralGPT-Omni: A Versatile Dental Multimodal Large Language Model

November 27, 2025
Autori: Jing Hao, Yuci Liang, Lizhuo Lin, Yuxuan Fan, Wenkai Zhou, Kaixin Guo, Zanting Ye, Yanpeng Sun, Xinyu Zhang, Yanqi Yang, Qiankun Li, Hao Tang, James Kit-Hon Tsoi, Linlin Shen, Kuo Feng Hung
cs.AI

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno dimostrato un enorme potenziale in numerose specialità mediche; tuttavia, l'odontoiatria rimane un campo poco esplorato, in parte a causa della limitata disponibilità di dati specifici del dominio, della scarsità di annotazioni da parte di esperti odontoiatrici, della modellizzazione insufficiente per modalità specifiche e delle sfide in termini di affidabilità. In questo articolo, presentiamo OralGPT-Omni, il primo MLLM specializzato in odontoiatria, progettato per un'analisi completa e affidabile attraverso diverse modalità di imaging odontoiatrico e compiti clinici. Per catturare esplicitamente il ragionamento diagnostico dei dentisti, abbiamo costruito TRACE-CoT, un dataset basato su catene di ragionamento clinicamente fondato che rispecchia i processi decisionali dei radiologi odontoiatrici. Questa supervisione del ragionamento, combinata con il nostro paradigma di addestramento in quattro fasi proposto, rafforza sostanzialmente la capacità del modello di comprendere e analizzare le immagini odontoiatriche. Parallelamente, introduciamo MMOral-Uni, il primo benchmark multimodale unificato per l'analisi delle immagini odontoiatriche. Esso comprende 2.809 coppie domanda-risposta a risposta libera che abbracciano cinque modalità e cinque compiti, offrendo la suite di valutazione più completa fino ad oggi per gli MLLM nell'odontoiatria digitale. OralGPT-Omni raggiunge un punteggio complessivo di 51,84 sul benchmark MMOral-Uni e di 45,31 sul benchmark MMOral-OPG, superando notevolmente i punteggi di GPT-4V. Il nostro lavoro promuove l'odontoiatria intelligente e apre la strada a futuri progressi nell'analisi delle immagini odontoiatriche. Tutto il codice, i benchmark e i modelli saranno resi pubblicamente disponibili.
English
Multimodal Large Language Models (MLLMs) have exhibited immense potential across numerous medical specialties; yet, dentistry remains underexplored, in part due to limited domain-specific data, scarce dental expert annotations, insufficient modality-specific modeling, and challenges in reliability. In this paper, we present OralGPT-Omni, the first dental-specialized MLLM designed for comprehensive and trustworthy analysis across diverse dental imaging modalities and clinical tasks. To explicitly capture dentists' diagnostic reasoning, we construct TRACE-CoT, a clinically grounded chain-of-thought dataset that mirrors dental radiologists' decision-making processes. This reasoning supervision, combined with our proposed four-stage training paradigm, substantially strengthens the model's capacity for dental image understanding and analysis. In parallel, we introduce MMOral-Uni, the first unified multimodal benchmark for dental image analysis. It comprises 2,809 open-ended question-answer pairs spanning five modalities and five tasks, offering a comprehensive evaluation suite to date for MLLMs in digital dentistry. OralGPT-Omni achieves an overall score of 51.84 on the MMOral-Uni benchmark and 45.31 on the MMOral-OPG benchmark, dramatically outperforming the scores of GPT-5. Our work promotes intelligent dentistry and paves the way for future advances in dental image analysis. All code, benchmark, and models will be made publicly available.
PDF51December 2, 2025