Auf dem Weg zu besserer KI in der Zahnmedizin: Ein multimodaler Benchmark und Instruktionsdatensatz für die Analyse von Panorama-Röntgenaufnahmen
Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis
September 11, 2025
papers.authors: Jing Hao, Yuxuan Fan, Yanpeng Sun, Kaixin Guo, Lizhuo Lin, Jinrong Yang, Qi Yong H. Ai, Lun M. Wong, Hao Tang, Kuo Feng Hung
cs.AI
papers.abstract
Jüngste Fortschritte bei großen visuell-sprachlichen Modellen (LVLMs) haben eine starke Leistung bei allgemeinen medizinischen Aufgaben gezeigt. Ihre Wirksamkeit in spezialisierten Bereichen wie der Zahnmedizin bleibt jedoch weitgehend unerforscht. Insbesondere Panorama-Röntgenaufnahmen, eine weit verbreitete Bildgebungsmethode in der oralen Radiologie, stellen aufgrund dichter anatomischer Strukturen und subtiler pathologischer Hinweise interpretative Herausforderungen dar, die von bestehenden medizinischen Benchmarks oder Instruktionsdatensätzen nicht erfasst werden. Zu diesem Zweck führen wir MMOral ein, den ersten groß angelegten multimodalen Instruktionsdatensatz und Benchmark, der speziell für die Interpretation von Panorama-Röntgenaufnahmen entwickelt wurde. MMOral besteht aus 20.563 annotierten Bildern, die mit 1,3 Millionen Instruktionsfolgeinstanzen über verschiedene Aufgabentypen hinweg gepaart sind, darunter Attributextraktion, Berichterstellung, visuelles Frage-Antworten und bildgestützte Dialoge. Darüber hinaus präsentieren wir MMOral-Bench, eine umfassende Evaluationssuite, die fünf Schlüsseldimensionen der zahnmedizinischen Diagnostik abdeckt. Wir evaluieren 64 LVLMs auf MMOral-Bench und stellen fest, dass selbst das leistungsstärkste Modell, GPT-4o, nur eine Genauigkeit von 41,45 % erreicht, was erhebliche Einschränkungen der aktuellen Modelle in diesem Bereich offenbart. Um den Fortschritt in diesem spezifischen Bereich zu fördern, schlagen wir auch OralGPT vor, das ein überwachtes Fein-Tuning (SFT) auf Qwen2.5-VL-7B mit unserem sorgfältig kuratierten MMOral-Instruktionsdatensatz durchführt. Bemerkenswerterweise führt eine einzige Epoche des SFT zu erheblichen Leistungssteigerungen für LVLMs, z. B. zeigt OralGPT eine Verbesserung von 24,73 %. Sowohl MMOral als auch OralGPT haben ein erhebliches Potenzial als kritische Grundlage für die intelligente Zahnmedizin und ermöglichen klinisch relevantere multimodale KI-Systeme im zahnmedizinischen Bereich. Der Datensatz, das Modell, der Benchmark und die Evaluationssuite sind unter https://github.com/isbrycee/OralGPT verfügbar.
English
Recent advances in large vision-language models (LVLMs) have demonstrated
strong performance on general-purpose medical tasks. However, their
effectiveness in specialized domains such as dentistry remains underexplored.
In particular, panoramic X-rays, a widely used imaging modality in oral
radiology, pose interpretative challenges due to dense anatomical structures
and subtle pathological cues, which are not captured by existing medical
benchmarks or instruction datasets. To this end, we introduce MMOral, the first
large-scale multimodal instruction dataset and benchmark tailored for panoramic
X-ray interpretation. MMOral consists of 20,563 annotated images paired with
1.3 million instruction-following instances across diverse task types,
including attribute extraction, report generation, visual question answering,
and image-grounded dialogue. In addition, we present MMOral-Bench, a
comprehensive evaluation suite covering five key diagnostic dimensions in
dentistry. We evaluate 64 LVLMs on MMOral-Bench and find that even the
best-performing model, i.e., GPT-4o, only achieves 41.45% accuracy, revealing
significant limitations of current models in this domain. To promote the
progress of this specific domain, we also propose OralGPT, which conducts
supervised fine-tuning (SFT) upon Qwen2.5-VL-7B with our meticulously curated
MMOral instruction dataset. Remarkably, a single epoch of SFT yields
substantial performance enhancements for LVLMs, e.g., OralGPT demonstrates a
24.73% improvement. Both MMOral and OralGPT hold significant potential as a
critical foundation for intelligent dentistry and enable more clinically
impactful multimodal AI systems in the dental field. The dataset, model,
benchmark, and evaluation suite are available at
https://github.com/isbrycee/OralGPT.