LM-Lexicon: Verbetering van Definitiemodellering door Harmonisatie van Semantische Experts

Samenvatting

Wij introduceren LM-Lexicon, een innovatieve aanpak voor definitiemodellering die dataclustering, semantische expertlearning en modelmerging combineert via een sparse mixture-of-experts-architectuur. Door de taak van definitiemodellering op te splitsen in gespecialiseerde semantische domeinen, waarbij kleine taalmodellen worden getraind als domeinexperts, behaalt LM-Lexicon aanzienlijke verbeteringen (+7% BLEU-score ten opzichte van het vorige state-of-the-art-model) ten opzichte van bestaande methoden op vijf veelgebruikte benchmarks. Empirisch tonen we aan dat 1) de clusterstrategie fijnmazige expertspecialisatie mogelijk maakt met bijna 10% verbetering in definitiekwaliteit; 2) het semantisch bewuste domeinniveau-routeringsmechanisme een hogere expertefficiëcy (+1%) bereikt dan conventionele tokenlevel-routering; en 3) verdere prestatieverbeteringen kunnen worden verkregen door schaling van rekencapaciteit tijdens testtijd en semantische experts. Ons werk bevordert definitiemodellering en biedt tegelijkertijd inzichten voor de ontwikkeling van efficiënte taalmodellen voor semantisch intensieve toepassingen.

English

We introduce LM-Lexicon, an innovative definition modeling approach that incorporates data clustering, semantic expert learning, and model merging using a sparse mixture-of-experts architecture. By decomposing the definition modeling task into specialized semantic domains, where small language models are trained as domain experts, LM-Lexicon achieves substantial improvements (+7% BLEU score compared with the prior state-of-the-art model) over existing methods on five widely used benchmarks. Empirically, we demonstrate that 1) the clustering strategy enables fine-grained expert specialization with nearly 10% improvement in definition quality; 2) the semantic-aware domain-level routing mechanism achieves higher expert efficacy (+1%) than conventional token-level routing; and 3) further performance gains can be obtained through test-time compute and semantic expert scaling. Our work advances definition modeling while providing insights into the development of efficient language models for semantic-intensive applications.

LM-Lexicon: Verbetering van Definitiemodellering door Harmonisatie van Semantische Experts

LM-Lexicon: Improving Definition Modeling via Harmonizing Semantic Experts

Samenvatting

Support