LM-Lexicon: Migliorare la Modellazione delle Definizioni tramite l'Armonizzazione di Esperti Semantici

Abstract

Introduciamo LM-Lexicon, un approccio innovativo alla modellazione di definizioni che incorpora il clustering dei dati, l'apprendimento di esperti semantici e la fusione di modelli mediante un'architettura sparsa *mixture-of-experts*. Scomponendo il compito di modellazione delle definizioni in domini semantici specializzati, in cui piccoli modelli linguistici vengono addestrati come esperti di dominio, LM-Lexicon ottiene miglioramenti sostanziali (+7% di punteggio BLEU rispetto al precedente modello state-of-the-art) rispetto ai metodi esistenti su cinque benchmark ampiamente utilizzati. Empiricamente, dimostriamo che 1) la strategia di clustering consente una specializzazione fine degli esperti con un miglioramento di quasi il 10% nella qualità delle definizioni; 2) il meccanismo di instradamento a livello di dominio, consapevole della semantica, raggiunge un'efficacia degli esperti superiore (+1%) rispetto all'instradamento convenzionale a livello di token; e 3) ulteriori guadagni prestazionali possono essere ottenuti mediante l'aumento del calcolo al momento del test e la scalabilità degli esperti semantici. Il nostro lavoro fa progredire la modellazione delle definizioni fornendo al contempo spunti per lo sviluppo di modelli linguistici efficienti per applicazioni semanticamente intensive.

English

We introduce LM-Lexicon, an innovative definition modeling approach that incorporates data clustering, semantic expert learning, and model merging using a sparse mixture-of-experts architecture. By decomposing the definition modeling task into specialized semantic domains, where small language models are trained as domain experts, LM-Lexicon achieves substantial improvements (+7% BLEU score compared with the prior state-of-the-art model) over existing methods on five widely used benchmarks. Empirically, we demonstrate that 1) the clustering strategy enables fine-grained expert specialization with nearly 10% improvement in definition quality; 2) the semantic-aware domain-level routing mechanism achieves higher expert efficacy (+1%) than conventional token-level routing; and 3) further performance gains can be obtained through test-time compute and semantic expert scaling. Our work advances definition modeling while providing insights into the development of efficient language models for semantic-intensive applications.

LM-Lexicon: Migliorare la Modellazione delle Definizioni tramite l'Armonizzazione di Esperti Semantici

LM-Lexicon: Improving Definition Modeling via Harmonizing Semantic Experts

Abstract

Support