Verso una migliore IA odontoiatrica: un benchmark multimodale e un dataset di istruzioni per l'analisi delle radiografie panoramiche
Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis
September 11, 2025
Autori: Jing Hao, Yuxuan Fan, Yanpeng Sun, Kaixin Guo, Lizhuo Lin, Jinrong Yang, Qi Yong H. Ai, Lun M. Wong, Hao Tang, Kuo Feng Hung
cs.AI
Abstract
I recenti progressi nei grandi modelli visione-linguaggio (LVLMs) hanno dimostrato prestazioni robuste in compiti medici di carattere generale. Tuttavia, la loro efficacia in domini specializzati come l'odontoiatria rimane ancora poco esplorata. In particolare, le radiografie panoramiche, una modalità di imaging ampiamente utilizzata in radiologia orale, presentano sfide interpretative a causa delle strutture anatomiche dense e dei segnali patologici sottili, che non sono catturati dai benchmark medici esistenti o dai dataset di istruzioni. A tal fine, introduciamo MMOral, il primo dataset e benchmark su larga scala di istruzioni multimodali progettato specificamente per l'interpretazione delle radiografie panoramiche. MMOral è composto da 20.563 immagini annotate abbinate a 1,3 milioni di istanze di istruzioni che coprono diversi tipi di task, tra cui estrazione di attributi, generazione di report, risposta a domande visive e dialogo basato su immagini. Inoltre, presentiamo MMOral-Bench, una suite di valutazione completa che copre cinque dimensioni diagnostiche chiave in odontoiatria. Abbiamo valutato 64 LVLMs su MMOral-Bench e abbiamo riscontrato che anche il modello con le migliori prestazioni, ovvero GPT-4o, raggiunge solo una precisione del 41,45%, rivelando significative limitazioni dei modelli attuali in questo dominio. Per promuovere il progresso in questo specifico campo, proponiamo anche OralGPT, che esegue un fine-tuning supervisionato (SFT) su Qwen2.5-VL-7B utilizzando il nostro dataset di istruzioni MMOral accuratamente curato. Notevolmente, una singola epoca di SFT produce sostanziali miglioramenti delle prestazioni per i LVLMs, ad esempio OralGPT dimostra un miglioramento del 24,73%. Sia MMOral che OralGPT rappresentano un potenziale significativo come fondamento critico per l'odontoiatria intelligente e abilitano sistemi di intelligenza artificiale multimodale con un impatto clinico maggiore nel campo odontoiatrico. Il dataset, il modello, il benchmark e la suite di valutazione sono disponibili su https://github.com/isbrycee/OralGPT.
English
Recent advances in large vision-language models (LVLMs) have demonstrated
strong performance on general-purpose medical tasks. However, their
effectiveness in specialized domains such as dentistry remains underexplored.
In particular, panoramic X-rays, a widely used imaging modality in oral
radiology, pose interpretative challenges due to dense anatomical structures
and subtle pathological cues, which are not captured by existing medical
benchmarks or instruction datasets. To this end, we introduce MMOral, the first
large-scale multimodal instruction dataset and benchmark tailored for panoramic
X-ray interpretation. MMOral consists of 20,563 annotated images paired with
1.3 million instruction-following instances across diverse task types,
including attribute extraction, report generation, visual question answering,
and image-grounded dialogue. In addition, we present MMOral-Bench, a
comprehensive evaluation suite covering five key diagnostic dimensions in
dentistry. We evaluate 64 LVLMs on MMOral-Bench and find that even the
best-performing model, i.e., GPT-4o, only achieves 41.45% accuracy, revealing
significant limitations of current models in this domain. To promote the
progress of this specific domain, we also propose OralGPT, which conducts
supervised fine-tuning (SFT) upon Qwen2.5-VL-7B with our meticulously curated
MMOral instruction dataset. Remarkably, a single epoch of SFT yields
substantial performance enhancements for LVLMs, e.g., OralGPT demonstrates a
24.73% improvement. Both MMOral and OralGPT hold significant potential as a
critical foundation for intelligent dentistry and enable more clinically
impactful multimodal AI systems in the dental field. The dataset, model,
benchmark, and evaluation suite are available at
https://github.com/isbrycee/OralGPT.