QueryBandits para la Mitigación de Alucinaciones: Aprovechamiento de Características Semánticas para la Reescribir sin Arrepentimiento
QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting
August 22, 2025
Autores: Nicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso
cs.AI
Resumen
Las capacidades avanzadas de razonamiento en los Modelos de Lenguaje de Gran Escala (LLMs) han provocado una mayor prevalencia de alucinaciones; sin embargo, la mayoría de los trabajos de mitigación se centran en el filtrado posterior en lugar de moldear las consultas que las desencadenan. Presentamos QueryBandits, un marco de bandidos que diseña estrategias de reescritura para maximizar un modelo de recompensa, que encapsula la propensión a la alucinación basándose en las sensibilidades de 17 características lingüísticas de la consulta de entrada y, por lo tanto, dirige proactivamente a los LLMs para evitar la generación de alucinaciones. En 13 benchmarks diversos de preguntas y respuestas (QA) y 1,050 consultas perturbadas léxicamente por conjunto de datos, nuestro QueryBandit contextual superior (Muestreo de Thompson) logra una tasa de éxito del 87.5% sobre una línea base sin reescritura y también supera a las indicaciones estáticas de cero disparos ("parafrasear" o "expandir") en un 42.6% y 60.3%, respectivamente. Por lo tanto, demostramos empíricamente la efectividad de QueryBandits para mitigar las alucinaciones mediante la intervención que toma la forma de una reescritura de consulta. Curiosamente, ciertas estrategias de indicación estática, que constituyen una parte considerable de la literatura actual sobre reescritura de consultas, tienen un arrepentimiento acumulado mayor que la línea base sin reescritura, lo que indica que las reescrituras estáticas pueden empeorar las alucinaciones. Además, descubrimos que los vectores de peso de características de regresión por brazo convergidos corroboran que no existe una única estrategia de reescritura óptima para todas las consultas. En este contexto, la reescritura guiada mediante la explotación de características semánticas con QueryBandits puede inducir cambios significativos en el comportamiento de salida a través de mecanismos de paso hacia adelante, evitando la necesidad de reentrenamiento o adaptación basada en gradientes.
English
Advanced reasoning capabilities in Large Language Models (LLMs) have caused
higher hallucination prevalence; yet most mitigation work focuses on
after-the-fact filtering rather than shaping the queries that trigger them. We
introduce QueryBandits, a bandit framework that designs rewrite strategies to
maximize a reward model, that encapsulates hallucination propensity based upon
the sensitivities of 17 linguistic features of the input query-and therefore,
proactively steer LLMs away from generating hallucinations. Across 13 diverse
QA benchmarks and 1,050 lexically perturbed queries per dataset, our top
contextual QueryBandit (Thompson Sampling) achieves an 87.5% win rate over a
no-rewrite baseline and also outperforms zero-shot static prompting
("paraphrase" or "expand") by 42.6% and 60.3% respectively. Therefore, we
empirically substantiate the effectiveness of QueryBandits in mitigating
hallucination via the intervention that takes the form of a query rewrite.
Interestingly, certain static prompting strategies, which constitute a
considerable number of current query rewriting literature, have a higher
cumulative regret than the no-rewrite baseline, signifying that static rewrites
can worsen hallucination. Moreover, we discover that the converged per-arm
regression feature weight vectors substantiate that there is no single rewrite
strategy optimal for all queries. In this context, guided rewriting via
exploiting semantic features with QueryBandits can induce significant shifts in
output behavior through forward-pass mechanisms, bypassing the need for
retraining or gradient-based adaptation.