К лучшим решениям в стоматологическом ИИ: мультимодальный бенчмарк и набор данных с инструкциями для анализа панорамных рентгеновских снимков
Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis
September 11, 2025
Авторы: Jing Hao, Yuxuan Fan, Yanpeng Sun, Kaixin Guo, Lizhuo Lin, Jinrong Yang, Qi Yong H. Ai, Lun M. Wong, Hao Tang, Kuo Feng Hung
cs.AI
Аннотация
Последние достижения в области крупных моделей обработки зрения и языка (LVLMs) продемонстрировали высокую производительность в решении общих медицинских задач. Однако их эффективность в специализированных областях, таких как стоматология, остается недостаточно изученной. В частности, панорамные рентгеновские снимки, широко используемые в оральной радиологии, представляют сложности для интерпретации из-за плотных анатомических структур и тонких патологических признаков, которые не охватываются существующими медицинскими бенчмарками или наборами инструкций. В связи с этим мы представляем MMOral — первый крупномасштабный мультимодальный набор данных с инструкциями и бенчмарк, разработанный специально для интерпретации панорамных рентгеновских снимков. MMOral включает 20 563 аннотированных изображения, сопряженных с 1,3 миллионами примеров выполнения инструкций, охватывающих различные типы задач, такие как извлечение атрибутов, генерация отчетов, визуальный вопросно-ответный диалог и диалог, основанный на изображениях. Кроме того, мы представляем MMOral-Bench — комплексный набор для оценки, охватывающий пять ключевых диагностических аспектов в стоматологии. Мы протестировали 64 модели LVLM на MMOral-Bench и обнаружили, что даже лучшая модель, GPT-4o, достигает точности всего 41,45%, что свидетельствует о значительных ограничениях современных моделей в этой области. Для стимулирования прогресса в данной области мы также предлагаем OralGPT, который проходит контролируемую тонкую настройку (SFT) на основе Qwen2.5-VL-7B с использованием тщательно отобранного набора данных MMOral. Примечательно, что всего одна эпоха SFT приводит к существенному улучшению производительности LVLM, например, OralGPT демонстрирует улучшение на 24,73%. Как MMOral, так и OralGPT обладают значительным потенциалом в качестве важной основы для интеллектуальной стоматологии и способствуют созданию более клинически значимых мультимодальных систем ИИ в стоматологической области. Набор данных, модель, бенчмарк и набор для оценки доступны по адресу https://github.com/isbrycee/OralGPT.
English
Recent advances in large vision-language models (LVLMs) have demonstrated
strong performance on general-purpose medical tasks. However, their
effectiveness in specialized domains such as dentistry remains underexplored.
In particular, panoramic X-rays, a widely used imaging modality in oral
radiology, pose interpretative challenges due to dense anatomical structures
and subtle pathological cues, which are not captured by existing medical
benchmarks or instruction datasets. To this end, we introduce MMOral, the first
large-scale multimodal instruction dataset and benchmark tailored for panoramic
X-ray interpretation. MMOral consists of 20,563 annotated images paired with
1.3 million instruction-following instances across diverse task types,
including attribute extraction, report generation, visual question answering,
and image-grounded dialogue. In addition, we present MMOral-Bench, a
comprehensive evaluation suite covering five key diagnostic dimensions in
dentistry. We evaluate 64 LVLMs on MMOral-Bench and find that even the
best-performing model, i.e., GPT-4o, only achieves 41.45% accuracy, revealing
significant limitations of current models in this domain. To promote the
progress of this specific domain, we also propose OralGPT, which conducts
supervised fine-tuning (SFT) upon Qwen2.5-VL-7B with our meticulously curated
MMOral instruction dataset. Remarkably, a single epoch of SFT yields
substantial performance enhancements for LVLMs, e.g., OralGPT demonstrates a
24.73% improvement. Both MMOral and OralGPT hold significant potential as a
critical foundation for intelligent dentistry and enable more clinically
impactful multimodal AI systems in the dental field. The dataset, model,
benchmark, and evaluation suite are available at
https://github.com/isbrycee/OralGPT.