ChatPaper.aiChatPaper

Vers une meilleure IA dentaire : Un benchmark multimodal et un ensemble de données d'instructions pour l'analyse des radiographies panoramiques

Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis

September 11, 2025
papers.authors: Jing Hao, Yuxuan Fan, Yanpeng Sun, Kaixin Guo, Lizhuo Lin, Jinrong Yang, Qi Yong H. Ai, Lun M. Wong, Hao Tang, Kuo Feng Hung
cs.AI

papers.abstract

Les récentes avancées dans les grands modèles vision-langage (LVLMs) ont démontré des performances solides sur des tâches médicales généralistes. Cependant, leur efficacité dans des domaines spécialisés tels que la dentisterie reste peu explorée. En particulier, les radiographies panoramiques, une modalité d'imagerie largement utilisée en radiologie bucco-dentaire, posent des défis d'interprétation en raison des structures anatomiques denses et des indices pathologiques subtils, qui ne sont pas capturés par les benchmarks ou ensembles de données d'instructions médicaux existants. À cette fin, nous introduisons MMOral, le premier ensemble de données et benchmark multimodal à grande échelle conçu pour l'interprétation des radiographies panoramiques. MMOral se compose de 20 563 images annotées associées à 1,3 million d'instances d'instructions couvrant divers types de tâches, notamment l'extraction d'attributs, la génération de rapports, la réponse à des questions visuelles et le dialogue ancré dans l'image. De plus, nous présentons MMOral-Bench, une suite d'évaluation complète couvrant cinq dimensions diagnostiques clés en dentisterie. Nous évaluons 64 LVLMs sur MMOral-Bench et constatons que même le modèle le plus performant, à savoir GPT-4o, n'atteint qu'une précision de 41,45 %, révélant ainsi des limitations significatives des modèles actuels dans ce domaine. Pour favoriser les progrès dans ce domaine spécifique, nous proposons également OralGPT, qui effectue un fine-tuning supervisé (SFT) sur Qwen2.5-VL-7B avec notre ensemble de données d'instructions MMOral soigneusement élaboré. Remarquablement, une seule époque de SFT entraîne des améliorations substantielles des performances des LVLMs, par exemple, OralGPT démontre une amélioration de 24,73 %. MMOral et OralGPT présentent un potentiel significatif en tant que fondation critique pour une dentisterie intelligente et permettent de développer des systèmes d'IA multimodaux ayant un impact clinique plus important dans le domaine dentaire. L'ensemble de données, le modèle, le benchmark et la suite d'évaluation sont disponibles à l'adresse suivante : https://github.com/isbrycee/OralGPT.
English
Recent advances in large vision-language models (LVLMs) have demonstrated strong performance on general-purpose medical tasks. However, their effectiveness in specialized domains such as dentistry remains underexplored. In particular, panoramic X-rays, a widely used imaging modality in oral radiology, pose interpretative challenges due to dense anatomical structures and subtle pathological cues, which are not captured by existing medical benchmarks or instruction datasets. To this end, we introduce MMOral, the first large-scale multimodal instruction dataset and benchmark tailored for panoramic X-ray interpretation. MMOral consists of 20,563 annotated images paired with 1.3 million instruction-following instances across diverse task types, including attribute extraction, report generation, visual question answering, and image-grounded dialogue. In addition, we present MMOral-Bench, a comprehensive evaluation suite covering five key diagnostic dimensions in dentistry. We evaluate 64 LVLMs on MMOral-Bench and find that even the best-performing model, i.e., GPT-4o, only achieves 41.45% accuracy, revealing significant limitations of current models in this domain. To promote the progress of this specific domain, we also propose OralGPT, which conducts supervised fine-tuning (SFT) upon Qwen2.5-VL-7B with our meticulously curated MMOral instruction dataset. Remarkably, a single epoch of SFT yields substantial performance enhancements for LVLMs, e.g., OralGPT demonstrates a 24.73% improvement. Both MMOral and OralGPT hold significant potential as a critical foundation for intelligent dentistry and enable more clinically impactful multimodal AI systems in the dental field. The dataset, model, benchmark, and evaluation suite are available at https://github.com/isbrycee/OralGPT.
PDF12September 12, 2025