¿Qué Hace que una Consulta Sea Buena? Medición del Impacto de las Características Lingüísticas que Confunden a los Humanos en el Rendimiento de los Modelos de Lenguaje Grandes (LLM)
What Makes a Good Query? Measuring the Impact of Human-Confusing Linguistic Features on LLM Performance
February 23, 2026
Autores: William Watson, Nicole Cho, Sumitra Ganesh, Manuela Veloso
cs.AI
Resumen
Las alucinaciones de los Modelos de Lenguaje Grande (LLM) suelen tratarse como defectos del modelo o de su estrategia de decodificación. Basándonos en la lingüística clásica, sostenemos que la forma de una consulta también puede moldear la respuesta de un oyente (y del modelo). Operacionalizamos esta idea construyendo un vector de características de consulta de 22 dimensiones que abarca la complejidad de la cláusula, la rareza léxica, y el anclaje de la anáfora, la negación, la capacidad de respuesta y la intención, todos factores conocidos por afectar la comprensión humana. Utilizando 369,837 consultas del mundo real, nos preguntamos: ¿Existen ciertos tipos de consultas que hagan más probable la alucinación? Un análisis a gran escala revela un "panorama de riesgo" consistente: ciertas características, como el anidamiento profundo de cláusulas y la subespecificación, se alinean con una mayor propensión a la alucinación. Por el contrario, un anclaje claro de la intención y la capacidad de respuesta se alinean con tasas de alucinación más bajas. Otras, incluida la especificidad del dominio, muestran efectos mixtos, dependientes del conjunto de datos y del modelo. Por lo tanto, estos hallazgos establecen una representación empíricamente observable de las características de la consulta que se correlaciona con el riesgo de alucinación, allanando el camino para la reescritura guiada de consultas y futuros estudios de intervención.
English
Large Language Model (LLM) hallucinations are usually treated as defects of the model or its decoding strategy. Drawing on classical linguistics, we argue that a query's form can also shape a listener's (and model's) response. We operationalize this insight by constructing a 22-dimension query feature vector covering clause complexity, lexical rarity, and anaphora, negation, answerability, and intention grounding, all known to affect human comprehension. Using 369,837 real-world queries, we ask: Are there certain types of queries that make hallucination more likely? A large-scale analysis reveals a consistent "risk landscape": certain features such as deep clause nesting and underspecification align with higher hallucination propensity. In contrast, clear intention grounding and answerability align with lower hallucination rates. Others, including domain specificity, show mixed, dataset- and model-dependent effects. Thus, these findings establish an empirically observable query-feature representation correlated with hallucination risk, paving the way for guided query rewriting and future intervention studies.