ChatPaper.aiChatPaper

OralGPT-Omni : Un modèle de langage multimodal polyvalent pour la dentisterie

OralGPT-Omni: A Versatile Dental Multimodal Large Language Model

November 27, 2025
papers.authors: Jing Hao, Yuci Liang, Lizhuo Lin, Yuxuan Fan, Wenkai Zhou, Kaixin Guo, Zanting Ye, Yanpeng Sun, Xinyu Zhang, Yanqi Yang, Qiankun Li, Hao Tang, James Kit-Hon Tsoi, Linlin Shen, Kuo Feng Hung
cs.AI

papers.abstract

Les modèles de langage de grande taille multimodaux (MLLM) ont démontré un potentiel immense dans de nombreuses spécialités médicales ; pourtant, la dentisterie reste peu explorée, en partie à cause du manque de données spécifiques au domaine, de la rareté des annotations d'experts dentaires, d'une modélisation insuffisante des modalités et des défis liés à la fiabilité. Dans cet article, nous présentons OralGPT-Omni, le premier MLLM spécialisé en dentisterie conçu pour une analyse complète et fiable sur diverses modalités d'imagerie dentaire et tâches cliniques. Pour capturer explicitement le raisonnement diagnostique des dentistes, nous construisons TRACE-CoT, un jeu de données de chaîne de pensée cliniquement fondé qui reflète les processus décisionnels des radiologistes dentaires. Cette supervision du raisonnement, combinée à notre paradigme d'entraînement en quatre étapes, renforce considérablement la capacité du modèle à comprendre et analyser les images dentaires. Parallèlement, nous introduisons MMOral-Uni, la première référence unifiée multimodale pour l'analyse d'images dentaires. Elle comprend 2 809 paires de questions-réponses ouvertes couvrant cinq modalités et cinq tâches, offrant à ce jour la suite d'évaluation la plus complète pour les MLLM en dentisterie numérique. OralGPT-Omni obtient un score global de 51,84 sur la référence MMOral-Uni et 45,31 sur la référence MMOral-OPG, surpassant considérablement les scores de GPT-5. Notre travail promeut la dentisterie intelligente et ouvre la voie aux futures avancées dans l'analyse d'images dentaires. Tous les codes, références et modèles seront rendus publics.
English
Multimodal Large Language Models (MLLMs) have exhibited immense potential across numerous medical specialties; yet, dentistry remains underexplored, in part due to limited domain-specific data, scarce dental expert annotations, insufficient modality-specific modeling, and challenges in reliability. In this paper, we present OralGPT-Omni, the first dental-specialized MLLM designed for comprehensive and trustworthy analysis across diverse dental imaging modalities and clinical tasks. To explicitly capture dentists' diagnostic reasoning, we construct TRACE-CoT, a clinically grounded chain-of-thought dataset that mirrors dental radiologists' decision-making processes. This reasoning supervision, combined with our proposed four-stage training paradigm, substantially strengthens the model's capacity for dental image understanding and analysis. In parallel, we introduce MMOral-Uni, the first unified multimodal benchmark for dental image analysis. It comprises 2,809 open-ended question-answer pairs spanning five modalities and five tasks, offering a comprehensive evaluation suite to date for MLLMs in digital dentistry. OralGPT-Omni achieves an overall score of 51.84 on the MMOral-Uni benchmark and 45.31 on the MMOral-OPG benchmark, dramatically outperforming the scores of GPT-5. Our work promotes intelligent dentistry and paves the way for future advances in dental image analysis. All code, benchmark, and models will be made publicly available.
PDF51December 2, 2025