Wat Maakt een Goede Zoekopdracht? Het Meten van de Impact van Verwarrende Taalkundige Kenmerken op de Prestaties van LLM's

Samenvatting

Hallucinaties bij Large Language Models (LLM's) worden doorgaans beschouwd als tekortkomingen van het model of diens decodeerstrategie. Geïnspireerd door de klassieke taalkunde, stellen wij dat ook de vorm van een vraag de reactie van een luisteraar (en model) kan beïnvloeden. We operationaliseren dit inzicht door een 22-dimensionale vector van vraagkenmerken te construeren, die clause complexity, lexical rarity, en anaphora, negation, answerability, en intention grounding omvat – allemaal bekend om hun invloed op het menselijk begrip. Met behulp van 369.837 vragen uit de praktijk onderzoeken we: Zijn er bepaalde soorten vragen die hallucinatie waarschijnlijker maken? Een grootschalige analyse onthult een consistent "risicolandschap": bepaalde kenmerken, zoals diepe zinsnesting en underspecification, gaan gepaard met een hogere neiging tot hallucinatie. Daarentegen gaan duidelijke intention grounding en answerability gepaard met lagere hallucinatiepercentages. Andere kenmerken, zoals domeinspecificiteit, vertonen gemengde, dataset- en modelafhankelijke effecten. Deze bevindingen leggen dus een empirisch observeerbare voorstelling van vraagkenmerken bloot die gecorreleerd is met hallucinatierisico, wat de weg effent voor gestuurd queryherformulering en toekomstige interventiestudies.

English

Large Language Model (LLM) hallucinations are usually treated as defects of the model or its decoding strategy. Drawing on classical linguistics, we argue that a query's form can also shape a listener's (and model's) response. We operationalize this insight by constructing a 22-dimension query feature vector covering clause complexity, lexical rarity, and anaphora, negation, answerability, and intention grounding, all known to affect human comprehension. Using 369,837 real-world queries, we ask: Are there certain types of queries that make hallucination more likely? A large-scale analysis reveals a consistent "risk landscape": certain features such as deep clause nesting and underspecification align with higher hallucination propensity. In contrast, clear intention grounding and answerability align with lower hallucination rates. Others, including domain specificity, show mixed, dataset- and model-dependent effects. Thus, these findings establish an empirically observable query-feature representation correlated with hallucination risk, paving the way for guided query rewriting and future intervention studies.

Wat Maakt een Goede Zoekopdracht? Het Meten van de Impact van Verwarrende Taalkundige Kenmerken op de Prestaties van LLM's

What Makes a Good Query? Measuring the Impact of Human-Confusing Linguistic Features on LLM Performance

Samenvatting

Support