OralGPT-Omni: Um Modelo de Linguagem Multimodal Versátil para a Odontologia

Resumo

Os Modelos de Linguagem de Grande Porte Multimodais (MLLMs) têm demonstrado um potencial imenso em diversas especialidades médicas; no entanto, a odontologia permanece pouco explorada, em parte devido à escassez de dados específicos do domínio, anotações especializadas em odontologia limitadas, modelagem modalidade-específica insuficiente e desafios relacionados à confiabilidade. Neste artigo, apresentamos o OralGPT-Omni, o primeiro MLLM especializado em odontologia, projetado para uma análise abrangente e confiável em diversas modalidades de imagem odontológica e tarefas clínicas. Para capturar explicitamente o raciocínio diagnóstico dos dentistas, construímos o TRACE-CoT, um conjunto de dados de cadeia de pensamento clinicamente fundamentado que espelha os processos de decisão dos radiologistas odontológicos. Esta supervisão de raciocínio, combinada com nosso paradigma de treinamento de quatro estágios proposto, fortalece substancialmente a capacidade do modelo para compreensão e análise de imagens odontológicas. Paralelamente, introduzimos o MMOral-Uni, o primeiro benchmark multimodal unificado para análise de imagem odontológica. Ele compreende 2.809 pares de pergunta-resposta de resposta livre, abrangendo cinco modalidades e cinco tarefas, oferecendo a mais abrangente suíte de avaliação até à data para MLLMs em odontologia digital. O OralGPT-Omni atinge uma pontuação geral de 51,84 no benchmark MMOral-Uni e 45,31 no benchmark MMOral-OPG, superando drasticamente as pontuações do GPT-4V. Nosso trabalho promove a odontologia inteligente e pavimenta o caminho para avanços futuros na análise de imagens odontológicas. Todo o código, benchmark e modelos serão disponibilizados publicamente.

English

Multimodal Large Language Models (MLLMs) have exhibited immense potential across numerous medical specialties; yet, dentistry remains underexplored, in part due to limited domain-specific data, scarce dental expert annotations, insufficient modality-specific modeling, and challenges in reliability. In this paper, we present OralGPT-Omni, the first dental-specialized MLLM designed for comprehensive and trustworthy analysis across diverse dental imaging modalities and clinical tasks. To explicitly capture dentists' diagnostic reasoning, we construct TRACE-CoT, a clinically grounded chain-of-thought dataset that mirrors dental radiologists' decision-making processes. This reasoning supervision, combined with our proposed four-stage training paradigm, substantially strengthens the model's capacity for dental image understanding and analysis. In parallel, we introduce MMOral-Uni, the first unified multimodal benchmark for dental image analysis. It comprises 2,809 open-ended question-answer pairs spanning five modalities and five tasks, offering a comprehensive evaluation suite to date for MLLMs in digital dentistry. OralGPT-Omni achieves an overall score of 51.84 on the MMOral-Uni benchmark and 45.31 on the MMOral-OPG benchmark, dramatically outperforming the scores of GPT-5. Our work promotes intelligent dentistry and paves the way for future advances in dental image analysis. All code, benchmark, and models will be made publicly available.

OralGPT-Omni: Um Modelo de Linguagem Multimodal Versátil para a Odontologia

OralGPT-Omni: A Versatile Dental Multimodal Large Language Model

Resumo

Support