Was macht eine gute Anfrage aus? Messung der Auswirkungen menschlich-irritierender sprachlicher Merkmale auf die Leistung von LLMs

Zusammenfassung

Halluzinationen bei Large Language Models (LLMs) werden üblicherweise als Defekte des Modells oder seiner Dekodierungsstrategie betrachtet. Ausgehend von der klassischen Linguistik argumentieren wir, dass auch die Form einer Anfrage die Antwort eines Zuhörers (und des Modells) beeinflussen kann. Wir operationalisieren diese Erkenntnis, indem wir einen 22-dimensionalen Anfrage-Feature-Vektor konstruieren, der Satzkomplexität, lexikalische Seltenheit sowie Anapher, Negation, Beantwortbarkeit und Intentionsverankerung abdeckt – alles Faktoren, von denen bekannt ist, dass sie das menschliche Verständnis beeinflussen. Anhand von 369.837 realen Anfragen stellen wir die Frage: Gibt es bestimmte Arten von Anfragen, die Halluzinationen wahrscheinlicher machen? Eine groß angelegte Analyse zeigt eine konsistente "Risikolandschaft": Bestimmte Merkmale wie tiefe Satzverschachtelung und Unterbestimmtheit gehen mit einer höheren Halluzinationsneigung einher. Klare Intentionsverankerung und Beantwortbarkeit hingegen korrelieren mit geringeren Halluzinationsraten. Andere Merkmale, einschließlich Domänenspezifität, zeigen gemischte, datensatz- und modellabhängige Effekte. Diese Ergebnisse etablieren somit eine empirisch beobachtbare Repräsentation von Anfragemerkmalen, die mit dem Halluzinationsrisiko korreliert, und ebnen den Weg für gezieltes Query-Rewriting und zukünftige Interventionsstudien.

English

Large Language Model (LLM) hallucinations are usually treated as defects of the model or its decoding strategy. Drawing on classical linguistics, we argue that a query's form can also shape a listener's (and model's) response. We operationalize this insight by constructing a 22-dimension query feature vector covering clause complexity, lexical rarity, and anaphora, negation, answerability, and intention grounding, all known to affect human comprehension. Using 369,837 real-world queries, we ask: Are there certain types of queries that make hallucination more likely? A large-scale analysis reveals a consistent "risk landscape": certain features such as deep clause nesting and underspecification align with higher hallucination propensity. In contrast, clear intention grounding and answerability align with lower hallucination rates. Others, including domain specificity, show mixed, dataset- and model-dependent effects. Thus, these findings establish an empirically observable query-feature representation correlated with hallucination risk, paving the way for guided query rewriting and future intervention studies.

Was macht eine gute Anfrage aus? Messung der Auswirkungen menschlich-irritierender sprachlicher Merkmale auf die Leistung von LLMs

What Makes a Good Query? Measuring the Impact of Human-Confusing Linguistic Features on LLM Performance

Zusammenfassung

Support