ChatPaper.aiChatPaper

DentalGPT: Stimulering van Multimodale Complexe Redeneervaardigheden in de Tandheelkunde

DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry

December 12, 2025
Auteurs: Zhenyang Cai, Jiaming Zhang, Junjie Zhao, Ziyi Zeng, Yanchao Li, Jingyi Liang, Junying Chen, Yunjin Yang, Jiajun You, Shuzhi Deng, Tongfei Wang, Wanting Chen, Chunxiu Hao, Ruiqi Xie, Zhenwei Wen, Xiangyi Feng, Zou Ting, Jin Zou Lin, Jianquan Li, Guangjun Yu, Liangyi Chen, Junwen Wang, Shan Jiang, Benyou Wang
cs.AI

Samenvatting

Betrouwbare interpretatie van multimodale gegevens in de tandheelkunde is essentieel voor geautomatiseerde mondzorg, maar huidige multimodale large language models (MLLM's) slagen er onvoldoende in om fijnmazige tandheelkundige visuele details te vatten en missen de nodige redeneervaardigheid voor een nauwkeurige diagnose. Om deze beperkingen aan te pakken, presenteren wij DentalGPT, een gespecialiseerde tandheelkundige MLLM die is ontwikkeld door middel van hoogwaardige injectie van domeinkennis en reinforcement learning. Concreet werd de grootste tot dusver geannoteerde multimodale dataset voor tandheelkunde samengesteld door meer dan 120.000 tandheelkundige afbeeldingen te verzamelen, gekoppeld aan gedetailleerde beschrijvingen die diagnostisch relevante visuele kenmerken benadrukken. Dit maakt het de multimodale dataset met de meest uitgebreide collectie tandheelkundige afbeeldingen tot op heden. Training op deze dataset verbetert het visuele begrip van de MLLM voor tandheelkundige aandoeningen aanzienlijk, terwijl de daaropvolgende reinforcement learning-fase zijn vermogen voor multimodale complexe redenering verder versterkt. Uitgebreide evaluaties op intra-orale en panoramische benchmarks, samen met tandheelkundige subsets van medische VQA-benchmarks, tonen aan dat DentalGPT superieure prestaties levert bij ziekteclassificatie- en tandheelkundige VQA-taken. Het presteert beter dan veel state-of-the-art MLLM's, ondanks dat het slechts 7B parameters heeft. Deze resultaten tonen aan dat hoogwaardige tandheelkundige gegevens gecombineerd met gefaseerde aanpassing een effectieve weg bieden voor het bouwen van capabele en domeingespecialiseerde tandheelkundige MLLM's.
English
Reliable interpretation of multimodal data in dentistry is essential for automated oral healthcare, yet current multimodal large language models (MLLMs) struggle to capture fine-grained dental visual details and lack sufficient reasoning ability for precise diagnosis. To address these limitations, we present DentalGPT, a specialized dental MLLM developed through high-quality domain knowledge injection and reinforcement learning. Specifically, the largest annotated multimodal dataset for dentistry to date was constructed by aggregating over 120k dental images paired with detailed descriptions that highlight diagnostically relevant visual features, making it the multimodal dataset with the most extensive collection of dental images to date. Training on this dataset significantly enhances the MLLM's visual understanding of dental conditions, while the subsequent reinforcement learning stage further strengthens its capability for multimodal complex reasoning. Comprehensive evaluations on intraoral and panoramic benchmarks, along with dental subsets of medical VQA benchmarks, show that DentalGPT achieves superior performance in disease classification and dental VQA tasks, outperforming many state-of-the-art MLLMs despite having only 7B parameters. These results demonstrate that high-quality dental data combined with staged adaptation provides an effective pathway for building capable and domain-specialized dental MLLMs.
PDF413December 17, 2025