Qu'est-ce qui fait une bonne requête ? Mesurer l'impact des caractéristiques linguistiques déroutantes pour les humains sur la performance des LLM

Résumé

Les hallucinations des grands modèles de langage (LLM) sont généralement considérées comme des défauts du modèle ou de sa stratégie de décodage. En nous appuyant sur la linguistique classique, nous soutenons que la forme d'une requête peut également influencer la réponse d'un interlocuteur (et du modèle). Nous opérationnalisons cette idée en construisant un vecteur de caractéristiques de requête à 22 dimensions, couvrant la complexité syntaxique, la rareté lexicale, ainsi que l'ancrage de l'anaphore, de la négation, de la capacité de réponse et de l'intention, tous connus pour affecter la compréhension humaine. En utilisant 369 837 requêtes du monde réel, nous posons la question suivante : Certains types de requêtes rendent-elles l'hallucination plus probable ? Une analyse à grande échelle révèle un « paysage de risque » cohérent : certaines caractéristiques, comme l'enchâssement profond de clauses et le sous-spécification, sont associées à une propension plus élevée à l'hallucination. En revanche, un ancrage clair de l'intention et une bonne capacité de réponse sont associés à des taux d'hallucination plus faibles. D'autres, y compris la spécificité du domaine, montrent des effets mitigés, dépendants du jeu de données et du modèle. Ainsi, ces résultats établissent une représentation empiriquement observable des caractéristiques des requêtes corrélée au risque d'hallucination, ouvrant la voie à une reformulation guidée des requêtes et à de futures études d'intervention.

English

Large Language Model (LLM) hallucinations are usually treated as defects of the model or its decoding strategy. Drawing on classical linguistics, we argue that a query's form can also shape a listener's (and model's) response. We operationalize this insight by constructing a 22-dimension query feature vector covering clause complexity, lexical rarity, and anaphora, negation, answerability, and intention grounding, all known to affect human comprehension. Using 369,837 real-world queries, we ask: Are there certain types of queries that make hallucination more likely? A large-scale analysis reveals a consistent "risk landscape": certain features such as deep clause nesting and underspecification align with higher hallucination propensity. In contrast, clear intention grounding and answerability align with lower hallucination rates. Others, including domain specificity, show mixed, dataset- and model-dependent effects. Thus, these findings establish an empirically observable query-feature representation correlated with hallucination risk, paving the way for guided query rewriting and future intervention studies.

Qu'est-ce qui fait une bonne requête ? Mesurer l'impact des caractéristiques linguistiques déroutantes pour les humains sur la performance des LLM

What Makes a Good Query? Measuring the Impact of Human-Confusing Linguistic Features on LLM Performance

Résumé

Support