O que Define uma Boa Consulta? Medindo o Impacto de Características Linguísticas Confusas para Humanos no Desempenho de LLMs

Resumo

As alucinações em Modelos de Linguagem de Grande Porte (LLMs) são geralmente tratadas como defeitos do modelo ou de sua estratégia de decodificação. Com base na linguística clássica, argumentamos que a forma de uma consulta também pode moldar a resposta de um ouvinte (e do modelo). Operacionalizamos essa percepção construindo um vetor de características de consulta de 22 dimensões, abrangendo complexidade de cláusulas, raridade lexical, e o fundamento de anáfora, negação, capacidade de resposta e intenção, todos conhecidos por afetar a compreensão humana. Utilizando 369.837 consultas do mundo real, perguntamos: existem certos tipos de consultas que tornam a alucinação mais provável? Uma análise em larga escala revela um "panorama de risco" consistente: certas características, como o aninhamento profundo de cláusulas e a subespecificação, estão alinhadas com uma maior propensão à alucinação. Em contraste, um fundamento de intenção claro e a capacidade de resposta estão alinhados com taxas mais baixas de alucinação. Outras, incluindo a especificidade de domínio, mostram efeitos mistos, dependentes do conjunto de dados e do modelo. Assim, esses achados estabelecem uma representação empiricamente observável de características da consulta correlacionada com o risco de alucinação, pavimentando o caminho para a reescrita guiada de consultas e futuros estudos de intervenção.

English

Large Language Model (LLM) hallucinations are usually treated as defects of the model or its decoding strategy. Drawing on classical linguistics, we argue that a query's form can also shape a listener's (and model's) response. We operationalize this insight by constructing a 22-dimension query feature vector covering clause complexity, lexical rarity, and anaphora, negation, answerability, and intention grounding, all known to affect human comprehension. Using 369,837 real-world queries, we ask: Are there certain types of queries that make hallucination more likely? A large-scale analysis reveals a consistent "risk landscape": certain features such as deep clause nesting and underspecification align with higher hallucination propensity. In contrast, clear intention grounding and answerability align with lower hallucination rates. Others, including domain specificity, show mixed, dataset- and model-dependent effects. Thus, these findings establish an empirically observable query-feature representation correlated with hallucination risk, paving the way for guided query rewriting and future intervention studies.

O que Define uma Boa Consulta? Medindo o Impacto de Características Linguísticas Confusas para Humanos no Desempenho de LLMs

What Makes a Good Query? Measuring the Impact of Human-Confusing Linguistic Features on LLM Performance

Resumo

Support