LM-Lexicon : Améliorer la modélisation de définitions par l'harmonisation d'experts sémantiques
LM-Lexicon: Improving Definition Modeling via Harmonizing Semantic Experts
February 15, 2026
papers.authors: Yang Liu, Jiaye Yang, Weikang Li, Jiahui Liang, Yang Li, Lingyong Yan
cs.AI
papers.abstract
Nous présentons LM-Lexicon, une approche innovante de modélisation de définitions qui intègre le clustering de données, l'apprentissage d'experts sémantiques et la fusion de modèles via une architecture éparse de mélange d'experts. En décomposant la tâche de modélisation de définitions en domaines sémantiques spécialisés, où de petits modèles de langage sont entraînés comme experts de domaine, LM-Lexicon obtient des améliorations substantielles (+7% de score BLEU par rapport au modèle précédent de l'état de l'art) sur cinq benchmarks largement utilisés. Empiriquement, nous démontrons que 1) la stratégie de clustering permet une spécialisation fine des experts avec une amélioration de près de 10% de la qualité des définitions ; 2) le mécanisme de routage au niveau des domaines sémantiques atteint une efficacité d'expert supérieure (+1%) au routage conventionnel au niveau des tokens ; et 3) des gains de performance supplémentaires peuvent être obtenus via le calcul au moment du test et la mise à l'échelle des experts sémantiques. Notre travail fait progresser la modélisation des définitions tout en fournissant des insights pour le développement de modèles de langage efficaces pour les applications sémantiques intensives.
English
We introduce LM-Lexicon, an innovative definition modeling approach that incorporates data clustering, semantic expert learning, and model merging using a sparse mixture-of-experts architecture. By decomposing the definition modeling task into specialized semantic domains, where small language models are trained as domain experts, LM-Lexicon achieves substantial improvements (+7% BLEU score compared with the prior state-of-the-art model) over existing methods on five widely used benchmarks. Empirically, we demonstrate that 1) the clustering strategy enables fine-grained expert specialization with nearly 10% improvement in definition quality; 2) the semantic-aware domain-level routing mechanism achieves higher expert efficacy (+1%) than conventional token-level routing; and 3) further performance gains can be obtained through test-time compute and semantic expert scaling. Our work advances definition modeling while providing insights into the development of efficient language models for semantic-intensive applications.