Cosa Rende una Query Efficace? Misurare l'Impatto delle Caratteristiche Linguistiche che Confondono gli Umani sulle Prestazioni dei Modelli Linguistici

Abstract

Le allucinazioni dei Large Language Model (LLM) sono solitamente considerate difetti del modello o della sua strategia di decodifica. Attingendo alla linguistica classica, sosteniamo che anche la forma di una query può influenzare la risposta di un ascoltatore (e del modello). Operazionalizziamo questa intuizione costruendo un vettore di caratteristiche delle query a 22 dimensioni, che copre complessità clausale, rarità lessicale, nonché anàfora, negazione, capacità di risposta e ancoraggio dell'intenzione, tutti elementi noti per influenzare la comprensione umana. Utilizzando 369.837 query del mondo reale, ci chiediamo: esistono tipi specifici di query che rendono più probabile un'allucinazione? Un'analisi su larga scala rivela un "paesaggio del rischio" coerente: alcune caratteristiche, come l'annidamento profondo di clausole e la sottospecificazione, si allineano con una maggiore propensione all'allucinazione. Al contrario, un chiaro ancoraggio dell'intenzione e una buona capacità di risposta si associano a tassi di allucinazione più bassi. Altre caratteristiche, inclusa la specificità di dominio, mostrano effetti contrastanti, dipendenti dal dataset e dal modello. Pertanto, questi risultati stabiliscono una rappresentazione empiricamente osservabile delle caratteristiche delle query correlata al rischio di allucinazione, aprendo la strada a riscritture guidate delle query e a futuri studi di intervento.

English

Large Language Model (LLM) hallucinations are usually treated as defects of the model or its decoding strategy. Drawing on classical linguistics, we argue that a query's form can also shape a listener's (and model's) response. We operationalize this insight by constructing a 22-dimension query feature vector covering clause complexity, lexical rarity, and anaphora, negation, answerability, and intention grounding, all known to affect human comprehension. Using 369,837 real-world queries, we ask: Are there certain types of queries that make hallucination more likely? A large-scale analysis reveals a consistent "risk landscape": certain features such as deep clause nesting and underspecification align with higher hallucination propensity. In contrast, clear intention grounding and answerability align with lower hallucination rates. Others, including domain specificity, show mixed, dataset- and model-dependent effects. Thus, these findings establish an empirically observable query-feature representation correlated with hallucination risk, paving the way for guided query rewriting and future intervention studies.

Cosa Rende una Query Efficace? Misurare l'Impatto delle Caratteristiche Linguistiche che Confondono gli Umani sulle Prestazioni dei Modelli Linguistici

What Makes a Good Query? Measuring the Impact of Human-Confusing Linguistic Features on LLM Performance

Abstract

Support