Что делает запрос хорошим? Измерение влияния лингвистических особенностей, затрудняющих понимание человеком, на производительность больших языковых моделей

Аннотация

Галлюцинации больших языковых моделей (LLM) обычно рассматриваются как дефекты самой модели или её стратегии декодирования. Опираясь на классическую лингвистику, мы утверждаем, что форма запроса также может формировать ответ слушателя (и модели). Мы операционализируем это представление, создавая 22-мерный вектор признаков запроса, который охватывает сложность клаузы, лексическую редкость, а также анафору, отрицание, отвечаемость и обоснованность интенции — факторы, известные своим влиянием на человеческое понимание. Используя 369 837 реальных запросов, мы задаемся вопросом: существуют ли определенные типы запросов, которые повышают вероятность галлюцинаций? Крупномасштабный анализ выявляет последовательный «ландшафт рисков»: такие признаки, как глубокая вложенность клауз и неполная спецификация, коррелируют с более высокой склонностью к галлюцинациям. Напротив, четкая обоснованность интенции и отвечаемость связаны с более низким уровнем галлюцинаций. Другие признаки, включая предметную специфичность, демонстрируют смешанные, зависящие от набора данных и модели эффекты. Таким образом, эти результаты устанавливают эмпирически наблюдаемое представление признаков запроса, которое коррелирует с риском галлюцинаций, прокладывая путь к целенаправленному переформулированию запросов и будущим интервенционным исследованиям.

English

Large Language Model (LLM) hallucinations are usually treated as defects of the model or its decoding strategy. Drawing on classical linguistics, we argue that a query's form can also shape a listener's (and model's) response. We operationalize this insight by constructing a 22-dimension query feature vector covering clause complexity, lexical rarity, and anaphora, negation, answerability, and intention grounding, all known to affect human comprehension. Using 369,837 real-world queries, we ask: Are there certain types of queries that make hallucination more likely? A large-scale analysis reveals a consistent "risk landscape": certain features such as deep clause nesting and underspecification align with higher hallucination propensity. In contrast, clear intention grounding and answerability align with lower hallucination rates. Others, including domain specificity, show mixed, dataset- and model-dependent effects. Thus, these findings establish an empirically observable query-feature representation correlated with hallucination risk, paving the way for guided query rewriting and future intervention studies.

Что делает запрос хорошим? Измерение влияния лингвистических особенностей, затрудняющих понимание человеком, на производительность больших языковых моделей

What Makes a Good Query? Measuring the Impact of Human-Confusing Linguistic Features on LLM Performance

Аннотация

Support