LM-Lexicon: Melhorando a Modelagem de Definições por meio da Harmonização de Especialistas Semânticos

Resumo

Apresentamos o LM-Lexicon, uma abordagem inovadora de modelagem de definição que incorpora agrupamento de dados, aprendizado de especialistas semânticos e fusão de modelos usando uma arquitetura esparsa de mistura de especialistas. Ao decompor a tarefa de modelagem de definição em domínios semânticos especializados, nos quais pequenos modelos de linguagem são treinados como especialistas de domínio, o LM-Lexicon alcança melhorias substanciais (+7% no índice BLEU em comparação com o modelo estado da arte anterior) sobre os métodos existentes em cinco benchmarks amplamente utilizados. Empiricamente, demonstramos que 1) a estratégia de agrupamento permite uma especialização refinada de especialistas com quase 10% de melhoria na qualidade da definição; 2) o mecanismo de roteamento em nível de domínio com consciência semântica alcança maior eficácia do especialista (+1%) do que o roteamento convencional em nível de token; e 3) ganhos adicionais de desempenho podem ser obtidos por meio de computação no momento do teste e escalonamento de especialistas semânticos. Nosso trabalho avança a modelagem de definições, ao mesmo tempo que fornece insights para o desenvolvimento de modelos de linguagem eficientes para aplicações semanticamente intensivas.

English

We introduce LM-Lexicon, an innovative definition modeling approach that incorporates data clustering, semantic expert learning, and model merging using a sparse mixture-of-experts architecture. By decomposing the definition modeling task into specialized semantic domains, where small language models are trained as domain experts, LM-Lexicon achieves substantial improvements (+7% BLEU score compared with the prior state-of-the-art model) over existing methods on five widely used benchmarks. Empirically, we demonstrate that 1) the clustering strategy enables fine-grained expert specialization with nearly 10% improvement in definition quality; 2) the semantic-aware domain-level routing mechanism achieves higher expert efficacy (+1%) than conventional token-level routing; and 3) further performance gains can be obtained through test-time compute and semantic expert scaling. Our work advances definition modeling while providing insights into the development of efficient language models for semantic-intensive applications.