Naar Betere Tandheelkundige AI: Een Multimodaal Benchmark- en Instructiedataset voor Panoramische Röntgenanalyse
Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis
September 11, 2025
Auteurs: Jing Hao, Yuxuan Fan, Yanpeng Sun, Kaixin Guo, Lizhuo Lin, Jinrong Yang, Qi Yong H. Ai, Lun M. Wong, Hao Tang, Kuo Feng Hung
cs.AI
Samenvatting
Recente vooruitgang in grote visueel-taalmodelen (LVLMs) heeft sterke prestaties aangetoond op algemene medische taken. Hun effectiviteit in gespecialiseerde domeinen zoals tandheelkunde blijft echter onderbelicht. Panoramische röntgenfoto's, een veelgebruikte beeldvormingstechniek in de orale radiologie, vormen interpretatieve uitdagingen vanwege dichte anatomische structuren en subtiele pathologische aanwijzingen, die niet worden vastgelegd door bestaande medische benchmarks of instructiedatasets. Daarom introduceren we MMOral, de eerste grootschalige multimodale instructiedataset en benchmark die specifiek is ontworpen voor de interpretatie van panoramische röntgenfoto's. MMOral bestaat uit 20.563 geannoteerde afbeeldingen, gekoppeld aan 1,3 miljoen instructievolgende instanties over diverse taaktypen, waaronder attribuutextractie, rapportgeneratie, visuele vraagbeantwoording en beeldgebaseerde dialoog. Daarnaast presenteren we MMOral-Bench, een uitgebreide evaluatiesuite die vijf belangrijke diagnostische dimensies in de tandheelkunde bestrijkt. We evalueren 64 LVLMs op MMOral-Bench en constateren dat zelfs het best presterende model, GPT-4o, slechts een nauwkeurigheid van 41,45% behaalt, wat significante beperkingen van huidige modellen in dit domein blootlegt. Om de vooruitgang in dit specifieke domein te bevorderen, stellen we ook OralGPT voor, dat supervised fine-tuning (SFT) uitvoert op Qwen2.5-VL-7B met onze zorgvuldig samengestelde MMOral-instructiedataset. Opmerkelijk is dat een enkele epoch van SFT aanzienlijke prestatieverbeteringen oplevert voor LVLMs; OralGPT toont bijvoorbeeld een verbetering van 24,73%. Zowel MMOral als OralGPT hebben aanzienlijk potentieel als een cruciale basis voor intelligente tandheelkunde en maken meer klinisch impactvolle multimodale AI-systemen in het tandheelkundige veld mogelijk. De dataset, het model, de benchmark en de evaluatiesuite zijn beschikbaar op https://github.com/isbrycee/OralGPT.
English
Recent advances in large vision-language models (LVLMs) have demonstrated
strong performance on general-purpose medical tasks. However, their
effectiveness in specialized domains such as dentistry remains underexplored.
In particular, panoramic X-rays, a widely used imaging modality in oral
radiology, pose interpretative challenges due to dense anatomical structures
and subtle pathological cues, which are not captured by existing medical
benchmarks or instruction datasets. To this end, we introduce MMOral, the first
large-scale multimodal instruction dataset and benchmark tailored for panoramic
X-ray interpretation. MMOral consists of 20,563 annotated images paired with
1.3 million instruction-following instances across diverse task types,
including attribute extraction, report generation, visual question answering,
and image-grounded dialogue. In addition, we present MMOral-Bench, a
comprehensive evaluation suite covering five key diagnostic dimensions in
dentistry. We evaluate 64 LVLMs on MMOral-Bench and find that even the
best-performing model, i.e., GPT-4o, only achieves 41.45% accuracy, revealing
significant limitations of current models in this domain. To promote the
progress of this specific domain, we also propose OralGPT, which conducts
supervised fine-tuning (SFT) upon Qwen2.5-VL-7B with our meticulously curated
MMOral instruction dataset. Remarkably, a single epoch of SFT yields
substantial performance enhancements for LVLMs, e.g., OralGPT demonstrates a
24.73% improvement. Both MMOral and OralGPT hold significant potential as a
critical foundation for intelligent dentistry and enable more clinically
impactful multimodal AI systems in the dental field. The dataset, model,
benchmark, and evaluation suite are available at
https://github.com/isbrycee/OralGPT.