Языковые модели моделируют язык.
Language Models Model Language
October 14, 2025
Авторы: Łukasz Borchmann
cs.AI
Аннотация
Лингвистический анализ языковых моделей (LLMs), находящийся под сильным влиянием теоретических концепций де Соссюра и Хомского, часто носит спекулятивный и малопродуктивный характер. Критики ставят под сомнение способность LLMs адекватно моделировать язык, ссылаясь на необходимость «глубинной структуры» или «заземления» для достижения идеализированной лингвистической «компетенции». Мы предлагаем радикальный сдвиг в перспективе в сторону эмпирических принципов Витольда Манчака, выдающегося специалиста в области общего и исторического языкознания. Он определяет язык не как «систему знаков» или «вычислительную систему мозга», а как совокупность всего сказанного и написанного. Прежде всего, он выделяет частоту использования определённых языковых элементов как основной принцип, управляющий языком. Используя его концептуальную основу, мы оспариваем предыдущие критические замечания в адрес LLMs и предлагаем конструктивное руководство для проектирования, оценки и интерпретации языковых моделей.
English
Linguistic commentary on LLMs, heavily influenced by the theoretical
frameworks of de Saussure and Chomsky, is often speculative and unproductive.
Critics challenge whether LLMs can legitimately model language, citing the need
for "deep structure" or "grounding" to achieve an idealized linguistic
"competence." We argue for a radical shift in perspective towards the
empiricist principles of Witold Ma\'nczak, a prominent general and historical
linguist. He defines language not as a "system of signs" or a "computational
system of the brain" but as the totality of all that is said and written. Above
all, he identifies frequency of use of particular language elements as
language's primary governing principle. Using his framework, we challenge prior
critiques of LLMs and provide a constructive guide for designing, evaluating,
and interpreting language models.