OralGPT-Omni: Ein vielseitiges multimodales Großsprachmodell für die Zahnmedizin
OralGPT-Omni: A Versatile Dental Multimodal Large Language Model
November 27, 2025
papers.authors: Jing Hao, Yuci Liang, Lizhuo Lin, Yuxuan Fan, Wenkai Zhou, Kaixin Guo, Zanting Ye, Yanpeng Sun, Xinyu Zhang, Yanqi Yang, Qiankun Li, Hao Tang, James Kit-Hon Tsoi, Linlin Shen, Kuo Feng Hung
cs.AI
papers.abstract
Multimodale Large Language Models (MLLMs) haben ein immenses Potenzial in zahlreichen medizinischen Fachgebieten gezeigt; dennoch ist die Zahnmedizin bisher nur unzureichend erforscht, teilweise aufgrund begrenzter domänenspezifischer Daten, knapper Annotationen durch zahnmedizinische Experten, unzureichender modalitätsspezifischer Modellierung und Herausforderungen in Bezug auf die Zuverlässigkeit. In diesem Artikel stellen wir OralGPT-Omni vor, das erste zahnmedizinspezifische MLLM, das für eine umfassende und vertrauenswürdige Analyse verschiedener zahnmedizinischer Bildgebungsmodalitäten und klinischer Aufgaben konzipiert ist. Um die diagnostische Argumentation von Zahnärzten explizit zu erfassen, erstellen wir TRACE-CoT, einen klinisch fundierten Chain-of-Thought-Datensatz, der die Entscheidungsprozesse zahnmedizinischer Radiologen widerspiegelt. Diese Argumentationsüberwachung, kombiniert mit unserem vorgeschlagenen vierstufigen Trainingsparadigma, stärkt die Fähigkeit des Modells zum Verständnis und zur Analyse zahnmedizinischer Bilder erheblich. Parallel dazu führen wir MMOral-Uni ein, den ersten einheitlichen multimodalen Benchmark für die zahnmedizinische Bildanalyse. Er umfasst 2.809 offene Frage-Antwort-Paare, die fünf Modalitäten und fünf Aufgaben abdecken, und bietet damit die bislang umfassendste Testsuite für die Bewertung von MLLMs in der digitalen Zahnmedizin. OralGPT-Omni erzielt eine Gesamtpunktzahl von 51,84 im MMOral-Uni-Benchmark und 45,31 im MMOral-OPG-Benchmark und übertrifft die Werte von GPT-5 damit deutlich. Unsere Arbeit fördert die intelligente Zahnmedizin und ebnet den Weg für zukünftige Fortschritte in der zahnmedizinischen Bildanalyse. Sämtlicher Code, Benchmarks und Modelle werden öffentlich zugänglich gemacht.
English
Multimodal Large Language Models (MLLMs) have exhibited immense potential across numerous medical specialties; yet, dentistry remains underexplored, in part due to limited domain-specific data, scarce dental expert annotations, insufficient modality-specific modeling, and challenges in reliability. In this paper, we present OralGPT-Omni, the first dental-specialized MLLM designed for comprehensive and trustworthy analysis across diverse dental imaging modalities and clinical tasks. To explicitly capture dentists' diagnostic reasoning, we construct TRACE-CoT, a clinically grounded chain-of-thought dataset that mirrors dental radiologists' decision-making processes. This reasoning supervision, combined with our proposed four-stage training paradigm, substantially strengthens the model's capacity for dental image understanding and analysis. In parallel, we introduce MMOral-Uni, the first unified multimodal benchmark for dental image analysis. It comprises 2,809 open-ended question-answer pairs spanning five modalities and five tasks, offering a comprehensive evaluation suite to date for MLLMs in digital dentistry. OralGPT-Omni achieves an overall score of 51.84 on the MMOral-Uni benchmark and 45.31 on the MMOral-OPG benchmark, dramatically outperforming the scores of GPT-5. Our work promotes intelligent dentistry and paves the way for future advances in dental image analysis. All code, benchmark, and models will be made publicly available.