LM-Lexicon: 의미 전문가 조화를 통한 정의 모델링 향상
LM-Lexicon: Improving Definition Modeling via Harmonizing Semantic Experts
February 15, 2026
저자: Yang Liu, Jiaye Yang, Weikang Li, Jiahui Liang, Yang Li, Lingyong Yan
cs.AI
초록
LM-Lexicon은 희소 전문가 혼합 아키텍처를 활용하여 데이터 클러스터링, 의미 전문가 학습 및 모델 병합을 통합한 혁신적인 정의 모델링 접근법을 소개합니다. 정의 모델링 과제를 특화된 의미 영역으로 분해하고, 소규모 언어 모델을 해당 영역 전문가로 학습시킴으로써, LM-Lexicon은 널리 사용되는 5개 벤치마크에서 기존 방법 대비 상당한 성능 향상(기존 최첨단 모델 대비 BLEU 점수 +7%)을 달성했습니다. 실증적으로 우리는 다음을 입증합니다: 1) 클러스터링 전략은 정의 품질에서 약 10%의 향상을 보이며 세분화된 전문가 특화를 가능하게 합니다; 2) 의미 인식 도메인 수준 라우팅 메커니즘은 기존 토큰 수준 라우팅보다 높은 전문가 효율성(+1%)을 달성합니다; 3) 테스트 시점 연산량 및 의미 전문가 규모 확장을 통해 추가적인 성능 향상을 얻을 수 있습니다. 본 연구는 정의 모델링을 발전시키는 동시에 의미 중심 응용 프로그램을 위한 효율적인 언어 모델 개발에 대한 통찰을 제공합니다.
English
We introduce LM-Lexicon, an innovative definition modeling approach that incorporates data clustering, semantic expert learning, and model merging using a sparse mixture-of-experts architecture. By decomposing the definition modeling task into specialized semantic domains, where small language models are trained as domain experts, LM-Lexicon achieves substantial improvements (+7% BLEU score compared with the prior state-of-the-art model) over existing methods on five widely used benchmarks. Empirically, we demonstrate that 1) the clustering strategy enables fine-grained expert specialization with nearly 10% improvement in definition quality; 2) the semantic-aware domain-level routing mechanism achieves higher expert efficacy (+1%) than conventional token-level routing; and 3) further performance gains can be obtained through test-time compute and semantic expert scaling. Our work advances definition modeling while providing insights into the development of efficient language models for semantic-intensive applications.