LM-Lexicon: Verbesserung der Definitionsmodellierung durch Harmonisierung semantischer Experten
LM-Lexicon: Improving Definition Modeling via Harmonizing Semantic Experts
February 15, 2026
papers.authors: Yang Liu, Jiaye Yang, Weikang Li, Jiahui Liang, Yang Li, Lingyong Yan
cs.AI
papers.abstract
Wir stellen LM-Lexicon vor, einen innovativen Ansatz für das Modellieren von Definitionen, der Datenclustering, semantisches Expertenlernen und das Zusammenführen von Modellen mittels einer spärlichen Mixture-of-Experts-Architektur integriert. Indem die Aufgabe des Definitionsmodellierens in spezialisierte semantische Domänen zerlegt wird, in denen kleine Sprachmodelle als Domain-Experten trainiert werden, erzielt LM-Lexicon erhebliche Verbesserungen (+7 % BLEU-Score im Vergleich zum bisherigen State-of-the-Art-Modell) gegenüber bestehenden Methoden auf fünf weit verbreiteten Benchmarks. Empirisch zeigen wir, dass 1) die Clustering-Strategie eine feingranuläre Expertenspezialisierung mit einer Verbesserung der Definitionsqualität von fast 10 % ermöglicht; 2) der semantisch bewusste Domain-Level-Routingmechanismus eine höhere Expertenwirksamkeit (+1 %) erreicht als konventionelles Token-Level-Routing; und 3) weitere Leistungssteigerungen durch Testzeit-Berechnung und Skalierung semantischer Experten erzielt werden können. Unsere Arbeit schreitet im Bereich des Definitionsmodellierens voran und liefert gleichzeitig Erkenntnisse für die Entwicklung effizienter Sprachmodelle für semantisch intensive Anwendungen.
English
We introduce LM-Lexicon, an innovative definition modeling approach that incorporates data clustering, semantic expert learning, and model merging using a sparse mixture-of-experts architecture. By decomposing the definition modeling task into specialized semantic domains, where small language models are trained as domain experts, LM-Lexicon achieves substantial improvements (+7% BLEU score compared with the prior state-of-the-art model) over existing methods on five widely used benchmarks. Empirically, we demonstrate that 1) the clustering strategy enables fine-grained expert specialization with nearly 10% improvement in definition quality; 2) the semantic-aware domain-level routing mechanism achieves higher expert efficacy (+1%) than conventional token-level routing; and 3) further performance gains can be obtained through test-time compute and semantic expert scaling. Our work advances definition modeling while providing insights into the development of efficient language models for semantic-intensive applications.