ChatPaper.aiChatPaper

Rumo a uma IA Odontológica Melhor: Um Benchmark Multimodal e Conjunto de Dados de Instrução para Análise de Radiografias Panorâmicas

Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis

September 11, 2025
Autores: Jing Hao, Yuxuan Fan, Yanpeng Sun, Kaixin Guo, Lizhuo Lin, Jinrong Yang, Qi Yong H. Ai, Lun M. Wong, Hao Tang, Kuo Feng Hung
cs.AI

Resumo

Avanços recentes em modelos de visão e linguagem de grande escala (LVLMs) demonstraram um forte desempenho em tarefas médicas de propósito geral. No entanto, sua eficácia em domínios especializados, como a odontologia, permanece pouco explorada. Em particular, as radiografias panorâmicas, uma modalidade de imagem amplamente utilizada em radiologia oral, apresentam desafios interpretativos devido às estruturas anatômicas densas e aos sinais patológicos sutis, que não são capturados pelos benchmarks ou conjuntos de dados de instruções médicas existentes. Para isso, introduzimos o MMOral, o primeiro conjunto de dados e benchmark de instruções multimodais em grande escala projetado especificamente para a interpretação de radiografias panorâmicas. O MMOral consiste em 20.563 imagens anotadas, emparelhadas com 1,3 milhão de instâncias de seguimento de instruções em diversos tipos de tarefas, incluindo extração de atributos, geração de relatórios, resposta a perguntas visuais e diálogo baseado em imagens. Além disso, apresentamos o MMOral-Bench, uma suíte de avaliação abrangente que cobre cinco dimensões diagnósticas fundamentais na odontologia. Avaliamos 64 LVLMs no MMOral-Bench e descobrimos que mesmo o modelo com melhor desempenho, ou seja, o GPT-4o, alcança apenas 41,45% de precisão, revelando limitações significativas dos modelos atuais nesse domínio. Para promover o progresso nesse campo específico, também propomos o OralGPT, que realiza ajuste fino supervisionado (SFT) sobre o Qwen2.5-VL-7B com nosso conjunto de dados de instruções MMOral cuidadosamente curado. Notavelmente, uma única época de SFT resulta em melhorias substanciais de desempenho para os LVLMs, por exemplo, o OralGPT demonstra uma melhoria de 24,73%. Tanto o MMOral quanto o OralGPT têm um potencial significativo como base crítica para a odontologia inteligente e permitem sistemas de IA multimodal com maior impacto clínico no campo odontológico. O conjunto de dados, modelo, benchmark e suíte de avaliação estão disponíveis em https://github.com/isbrycee/OralGPT.
English
Recent advances in large vision-language models (LVLMs) have demonstrated strong performance on general-purpose medical tasks. However, their effectiveness in specialized domains such as dentistry remains underexplored. In particular, panoramic X-rays, a widely used imaging modality in oral radiology, pose interpretative challenges due to dense anatomical structures and subtle pathological cues, which are not captured by existing medical benchmarks or instruction datasets. To this end, we introduce MMOral, the first large-scale multimodal instruction dataset and benchmark tailored for panoramic X-ray interpretation. MMOral consists of 20,563 annotated images paired with 1.3 million instruction-following instances across diverse task types, including attribute extraction, report generation, visual question answering, and image-grounded dialogue. In addition, we present MMOral-Bench, a comprehensive evaluation suite covering five key diagnostic dimensions in dentistry. We evaluate 64 LVLMs on MMOral-Bench and find that even the best-performing model, i.e., GPT-4o, only achieves 41.45% accuracy, revealing significant limitations of current models in this domain. To promote the progress of this specific domain, we also propose OralGPT, which conducts supervised fine-tuning (SFT) upon Qwen2.5-VL-7B with our meticulously curated MMOral instruction dataset. Remarkably, a single epoch of SFT yields substantial performance enhancements for LVLMs, e.g., OralGPT demonstrates a 24.73% improvement. Both MMOral and OralGPT hold significant potential as a critical foundation for intelligent dentistry and enable more clinically impactful multimodal AI systems in the dental field. The dataset, model, benchmark, and evaluation suite are available at https://github.com/isbrycee/OralGPT.
PDF32September 12, 2025