OralGPT-Omni: Un modelo de lenguaje grande multimodal versátil para odontología
OralGPT-Omni: A Versatile Dental Multimodal Large Language Model
November 27, 2025
Autores: Jing Hao, Yuci Liang, Lizhuo Lin, Yuxuan Fan, Wenkai Zhou, Kaixin Guo, Zanting Ye, Yanpeng Sun, Xinyu Zhang, Yanqi Yang, Qiankun Li, Hao Tang, James Kit-Hon Tsoi, Linlin Shen, Kuo Feng Hung
cs.AI
Resumen
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han exhibido un inmenso potencial en numerosas especialidades médicas; sin embargo, la odontología sigue siendo un área poco explorada, en parte debido a la limitada cantidad de datos específicos del dominio, la escasez de anotaciones realizadas por expertos dentales, el modelado insuficiente para modalidades específicas y los desafíos en cuanto a la fiabilidad. En este artículo, presentamos OralGPT-Omni, el primer MLLM especializado en odontología diseñado para un análisis integral y confiable a través de diversas modalidades de imagen dental y tareas clínicas. Para capturar explícitamente el razonamiento diagnóstico de los odontólogos, construimos TRACE-CoT, un conjunto de datos de cadena de pensamiento basado en la práctica clínica que refleja los procesos de toma de decisiones de los radiólogos dentales. Esta supervisión del razonamiento, combinada con nuestro paradigma de entrenamiento de cuatro etapas propuesto, fortalece sustancialmente la capacidad del modelo para la comprensión y el análisis de imágenes dentales. Paralelamente, presentamos MMOral-Uni, el primer benchmark multimodal unificado para el análisis de imágenes dentales. Este comprende 2.809 pares de preguntas y respuestas de respuesta abierta que abarcan cinco modalidades y cinco tareas, ofreciendo la suite de evaluación más completa hasta la fecha para los MLLMs en odontología digital. OralGPT-Omni alcanza una puntuación general de 51.84 en el benchmark MMOral-Uni y de 45.31 en el benchmark MMOral-OPG, superando drásticamente las puntuaciones de GPT-4V. Nuestro trabajo promueve la odontología inteligente y allana el camino para futuros avances en el análisis de imágenes dentales. Todo el código, los benchmarks y los modelos se pondrán a disposición del público.
English
Multimodal Large Language Models (MLLMs) have exhibited immense potential across numerous medical specialties; yet, dentistry remains underexplored, in part due to limited domain-specific data, scarce dental expert annotations, insufficient modality-specific modeling, and challenges in reliability. In this paper, we present OralGPT-Omni, the first dental-specialized MLLM designed for comprehensive and trustworthy analysis across diverse dental imaging modalities and clinical tasks. To explicitly capture dentists' diagnostic reasoning, we construct TRACE-CoT, a clinically grounded chain-of-thought dataset that mirrors dental radiologists' decision-making processes. This reasoning supervision, combined with our proposed four-stage training paradigm, substantially strengthens the model's capacity for dental image understanding and analysis. In parallel, we introduce MMOral-Uni, the first unified multimodal benchmark for dental image analysis. It comprises 2,809 open-ended question-answer pairs spanning five modalities and five tasks, offering a comprehensive evaluation suite to date for MLLMs in digital dentistry. OralGPT-Omni achieves an overall score of 51.84 on the MMOral-Uni benchmark and 45.31 on the MMOral-OPG benchmark, dramatically outperforming the scores of GPT-5. Our work promotes intelligent dentistry and paves the way for future advances in dental image analysis. All code, benchmark, and models will be made publicly available.