DentalGPT: 치과 분야에서의 다중 양식 복합 추론 유도
DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry
December 12, 2025
저자: Zhenyang Cai, Jiaming Zhang, Junjie Zhao, Ziyi Zeng, Yanchao Li, Jingyi Liang, Junying Chen, Yunjin Yang, Jiajun You, Shuzhi Deng, Tongfei Wang, Wanting Chen, Chunxiu Hao, Ruiqi Xie, Zhenwei Wen, Xiangyi Feng, Zou Ting, Jin Zou Lin, Jianquan Li, Guangjun Yu, Liangyi Chen, Junwen Wang, Shan Jiang, Benyou Wang
cs.AI
초록
치과에서 다중모드 데이터의 신뢰할 수 있는 해석은 자동화된 구강 건강 관리에 필수적이지만, 현재의 다중모드 대규모 언어 모델(MLLM)은 미세한 치과 시각적 세부 사항을 포착하는 데 어려움을 겪고 정확한 진단을 위한 충분한 추론 능력이 부족합니다. 이러한 한계를 해결하기 위해 저희는 고품질 도메인 지식 주입과 강화 학습을 통해 개발된 전문 치과 MLLM인 DentalGPT를 제시합니다. 구체적으로, 진단적으로 관련된 시각적 특징을 강조하는 상세한 설명과 함께 12만 개 이상의 치과 이미지를 통합하여 현재까지 가장 큰 주석이 달린 치과 다중모드 데이터셋을 구축했습니다. 이는 현재까지 가장 방대한 치과 이미지 컬렉션을 보유한 다중모드 데이터셋입니다. 이 데이터셋을 통한 학습은 MLLM의 치과 상태에 대한 시각적 이해를 크게 향상시키며, 이후의 강화 학습 단계는 다중모드 복합 추론 능력을 더욱 강화합니다. 구강 내 및 파노라마 벤치마크와 의료 VQA 벤치마크의 치과 하위 집합에 대한 포괄적인 평가 결과, DentalGPT가 질병 분류 및 치과 VQA 작업에서 우수한 성능을 달성하여 70억 개의 매개변수만을 가짐에도 불구하고 많은 최첨단 MLLM을 능가하는 것으로 나타났습니다. 이러한 결과는 고품질 치과 데이터와 단계적 적응을 결합하는 것이 능력 있고 도메인 특화된 치과 MLLM을 구축하는 효과적인 경로를 제공함을 보여줍니다.
English
Reliable interpretation of multimodal data in dentistry is essential for automated oral healthcare, yet current multimodal large language models (MLLMs) struggle to capture fine-grained dental visual details and lack sufficient reasoning ability for precise diagnosis. To address these limitations, we present DentalGPT, a specialized dental MLLM developed through high-quality domain knowledge injection and reinforcement learning. Specifically, the largest annotated multimodal dataset for dentistry to date was constructed by aggregating over 120k dental images paired with detailed descriptions that highlight diagnostically relevant visual features, making it the multimodal dataset with the most extensive collection of dental images to date. Training on this dataset significantly enhances the MLLM's visual understanding of dental conditions, while the subsequent reinforcement learning stage further strengthens its capability for multimodal complex reasoning. Comprehensive evaluations on intraoral and panoramic benchmarks, along with dental subsets of medical VQA benchmarks, show that DentalGPT achieves superior performance in disease classification and dental VQA tasks, outperforming many state-of-the-art MLLMs despite having only 7B parameters. These results demonstrate that high-quality dental data combined with staged adaptation provides an effective pathway for building capable and domain-specialized dental MLLMs.