ChatPaper.aiChatPaper

LM-Lexicon: Улучшение моделирования определений за счет гармонизации семантических экспертов

LM-Lexicon: Improving Definition Modeling via Harmonizing Semantic Experts

February 15, 2026
Авторы: Yang Liu, Jiaye Yang, Weikang Li, Jiahui Liang, Yang Li, Lingyong Yan
cs.AI

Аннотация

Мы представляем LM-Lexicon — инновационный подход к моделированию определений, который объединяет кластеризацию данных, обучение семантических экспертов и слияние моделей с использованием разреженной архитектуры смеси экспертов. Путем декомпозиции задачи моделирования определений на специализированные семантические домены, в которых небольшие языковые модели обучаются в качестве доменных экспертов, LM-Lexicon демонстрирует существенное улучшение (+7% по метрике BLEU по сравнению с предыдущей моделью-лидером) на пяти широко используемых бенчмарках. Эмпирически мы показываем, что: 1) кластеризация позволяет достичь детальной специализации экспертов с почти 10%-ным улучшением качества определений; 2) механизм семантически осознанной маршрутизации на уровне доменов обеспечивает более высокую эффективность экспертов (+1%), чем традиционная маршрутизация на уровне токенов; 3) дополнительные улучшения производительности могут быть получены за счет масштабирования вычислительных ресурсов на этапе тестирования и семантических экспертов. Наша работа продвигает область моделирования определений, одновременно предоставляя insights для разработки эффективных языковых моделей для семантически насыщенных приложений.
English
We introduce LM-Lexicon, an innovative definition modeling approach that incorporates data clustering, semantic expert learning, and model merging using a sparse mixture-of-experts architecture. By decomposing the definition modeling task into specialized semantic domains, where small language models are trained as domain experts, LM-Lexicon achieves substantial improvements (+7% BLEU score compared with the prior state-of-the-art model) over existing methods on five widely used benchmarks. Empirically, we demonstrate that 1) the clustering strategy enables fine-grained expert specialization with nearly 10% improvement in definition quality; 2) the semantic-aware domain-level routing mechanism achieves higher expert efficacy (+1%) than conventional token-level routing; and 3) further performance gains can be obtained through test-time compute and semantic expert scaling. Our work advances definition modeling while providing insights into the development of efficient language models for semantic-intensive applications.
PDF23February 18, 2026