ChatPaper.aiChatPaper

Hacia una IA Dental Mejorada: Un Conjunto de Datos de Referencia Multimodal y de Instrucciones para el Análisis de Radiografías Panorámicas

Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis

September 11, 2025
Autores: Jing Hao, Yuxuan Fan, Yanpeng Sun, Kaixin Guo, Lizhuo Lin, Jinrong Yang, Qi Yong H. Ai, Lun M. Wong, Hao Tang, Kuo Feng Hung
cs.AI

Resumen

Los recientes avances en los modelos de visión y lenguaje a gran escala (LVLMs, por sus siglas en inglés) han demostrado un rendimiento sólido en tareas médicas de propósito general. Sin embargo, su efectividad en dominios especializados como la odontología sigue siendo poco explorada. En particular, las radiografías panorámicas, una modalidad de imagen ampliamente utilizada en radiología oral, presentan desafíos interpretativos debido a las estructuras anatómicas densas y las señales patológicas sutiles, que no son capturadas por los puntos de referencia médicos existentes o los conjuntos de datos de instrucción. Con este fin, presentamos MMOral, el primer conjunto de datos y punto de referencia multimodal a gran escala diseñado específicamente para la interpretación de radiografías panorámicas. MMOral consta de 20,563 imágenes anotadas emparejadas con 1.3 millones de instancias de seguimiento de instrucciones en diversos tipos de tareas, incluyendo extracción de atributos, generación de informes, respuesta visual a preguntas y diálogo basado en imágenes. Además, presentamos MMOral-Bench, una suite de evaluación integral que cubre cinco dimensiones diagnósticas clave en odontología. Evaluamos 64 LVLMs en MMOral-Bench y encontramos que incluso el modelo con mejor rendimiento, es decir, GPT-4o, solo alcanza un 41.45% de precisión, revelando limitaciones significativas de los modelos actuales en este dominio. Para promover el progreso en este campo específico, también proponemos OralGPT, que realiza un ajuste fino supervisado (SFT) sobre Qwen2.5-VL-7B utilizando nuestro conjunto de datos de instrucciones MMOral cuidadosamente curado. Notablemente, una sola época de SFT produce mejoras sustanciales en el rendimiento de los LVLMs, por ejemplo, OralGPT demuestra una mejora del 24.73%. Tanto MMOral como OralGPT tienen un potencial significativo como base crítica para la odontología inteligente y permiten sistemas de IA multimodal con mayor impacto clínico en el campo dental. El conjunto de datos, el modelo, el punto de referencia y la suite de evaluación están disponibles en https://github.com/isbrycee/OralGPT.
English
Recent advances in large vision-language models (LVLMs) have demonstrated strong performance on general-purpose medical tasks. However, their effectiveness in specialized domains such as dentistry remains underexplored. In particular, panoramic X-rays, a widely used imaging modality in oral radiology, pose interpretative challenges due to dense anatomical structures and subtle pathological cues, which are not captured by existing medical benchmarks or instruction datasets. To this end, we introduce MMOral, the first large-scale multimodal instruction dataset and benchmark tailored for panoramic X-ray interpretation. MMOral consists of 20,563 annotated images paired with 1.3 million instruction-following instances across diverse task types, including attribute extraction, report generation, visual question answering, and image-grounded dialogue. In addition, we present MMOral-Bench, a comprehensive evaluation suite covering five key diagnostic dimensions in dentistry. We evaluate 64 LVLMs on MMOral-Bench and find that even the best-performing model, i.e., GPT-4o, only achieves 41.45% accuracy, revealing significant limitations of current models in this domain. To promote the progress of this specific domain, we also propose OralGPT, which conducts supervised fine-tuning (SFT) upon Qwen2.5-VL-7B with our meticulously curated MMOral instruction dataset. Remarkably, a single epoch of SFT yields substantial performance enhancements for LVLMs, e.g., OralGPT demonstrates a 24.73% improvement. Both MMOral and OralGPT hold significant potential as a critical foundation for intelligent dentistry and enable more clinically impactful multimodal AI systems in the dental field. The dataset, model, benchmark, and evaluation suite are available at https://github.com/isbrycee/OralGPT.
PDF22September 12, 2025