ChatPaper.aiChatPaper

OralGPT-Omni: Универсальная стоматологическая мультимодальная большая языковая модель

OralGPT-Omni: A Versatile Dental Multimodal Large Language Model

November 27, 2025
Авторы: Jing Hao, Yuci Liang, Lizhuo Lin, Yuxuan Fan, Wenkai Zhou, Kaixin Guo, Zanting Ye, Yanpeng Sun, Xinyu Zhang, Yanqi Yang, Qiankun Li, Hao Tang, James Kit-Hon Tsoi, Linlin Shen, Kuo Feng Hung
cs.AI

Аннотация

Мультимодальные большие языковые модели (MLLM) продемонстрировали огромный потенциал в многочисленных медицинских специальностях; однако стоматология остается недостаточно изученной, отчасти из-за ограниченного количества предметных данных, дефицита экспертных аннотаций в стоматологии, недостаточного моделирования для конкретных модальностей и проблем с надежностью. В данной статье мы представляем OralGPT-Omni — первую специализированную стоматологическую MLLM, предназначенную для комплексного и достоверного анализа разнообразных модальностей стоматологической визуализации и клинических задач. Чтобы явно отразить диагностическую логику стоматологов, мы создали TRACE-CoT — клинически обоснованный набор данных типа «цепь рассуждений», который воспроизводит процесс принятия решений стоматологами-рентгенологами. Это обучение рассуждениям в сочетании с предложенной нами четырехэтапной парадигмой обучения существенно усиливает способность модели к пониманию и анализу стоматологических изображений. Параллельно мы представляем MMOral-Uni — первый унифицированный мультимодальный бенчмарк для анализа стоматологических изображений. Он включает 2809 открытых вопросно-ответных пар, охватывающих пять модальностей и пять задач, и предлагает на сегодняшний день наиболее комплексный набор для оценки MLLM в цифровой стоматологии. OralGPT-Omni достигает общего балла 51.84 по бенчмарку MMOral-Uni и 45.31 по бенчмарку MMOral-OPG, что значительно превосходит показатели GPT-5. Наша работа способствует развитию интеллектуальной стоматологии и прокладывает путь для будущих достижений в анализе стоматологических изображений. Весь код, бенчмарки и модели будут общедоступны.
English
Multimodal Large Language Models (MLLMs) have exhibited immense potential across numerous medical specialties; yet, dentistry remains underexplored, in part due to limited domain-specific data, scarce dental expert annotations, insufficient modality-specific modeling, and challenges in reliability. In this paper, we present OralGPT-Omni, the first dental-specialized MLLM designed for comprehensive and trustworthy analysis across diverse dental imaging modalities and clinical tasks. To explicitly capture dentists' diagnostic reasoning, we construct TRACE-CoT, a clinically grounded chain-of-thought dataset that mirrors dental radiologists' decision-making processes. This reasoning supervision, combined with our proposed four-stage training paradigm, substantially strengthens the model's capacity for dental image understanding and analysis. In parallel, we introduce MMOral-Uni, the first unified multimodal benchmark for dental image analysis. It comprises 2,809 open-ended question-answer pairs spanning five modalities and five tasks, offering a comprehensive evaluation suite to date for MLLMs in digital dentistry. OralGPT-Omni achieves an overall score of 51.84 on the MMOral-Uni benchmark and 45.31 on the MMOral-OPG benchmark, dramatically outperforming the scores of GPT-5. Our work promotes intelligent dentistry and paves the way for future advances in dental image analysis. All code, benchmark, and models will be made publicly available.
PDF51December 2, 2025