No es una solución única: QueryBandits para la mitigación de alucinaciones

Resumen

Las capacidades de razonamiento avanzado en los Modelos de Lenguaje a Gran Escala (LLM) han dado lugar a un aumento en las alucinaciones; sin embargo, la mayoría de los trabajos de mitigación se centran en modelos de código abierto para la detección y edición de parámetros a posteriori. La escasez de estudios centrados en las alucinaciones en modelos de código cerrado es especialmente preocupante, ya que constituyen la gran mayoría de los modelos en despliegues institucionales. Presentamos QueryBandits, un marco de bandidos contextuales independiente del modelo que aprende de forma adaptativa en línea para seleccionar la estrategia óptima de reformulación de consultas mediante el aprovechamiento de una función de recompensa calibrada y validada empíricamente. En 16 escenarios de preguntas y respuestas, nuestro mejor QueryBandit (Muestreo de Thompson) logra una tasa de aciertos del 87.5% sobre una línea base Sin Reformulación y supera a las políticas estáticas de cero disparos (por ejemplo, Parafrasear o Expandir) en un 42.6% y 60.3%, respectivamente. Además, todos los bandidos contextuales superan a los bandidos básicos en todos los conjuntos de datos, con una mayor varianza de características coincidiendo con una mayor varianza en la selección de brazos. Esto corrobora nuestro hallazgo de que no existe una única política de reformulación óptima para todas las consultas. También descubrimos que ciertas políticas estáticas incurren en un mayor arrepentimiento acumulativo que Sin Reformulación, lo que indica que una política de reformulación de consultas inflexible puede empeorar las alucinaciones. Por lo tanto, aprender una política en línea sobre características semánticas con QueryBandits puede modificar el comportamiento del modelo únicamente mediante mecanismos de pasada hacia adelante, permitiendo su uso con modelos de código cerrado y evitando la necesidad de reentrenamiento o adaptación basada en gradientes.

English

Advanced reasoning capabilities in Large Language Models (LLMs) have led to more frequent hallucinations; yet most mitigation work focuses on open-source models for post-hoc detection and parameter editing. The dearth of studies focusing on hallucinations in closed-source models is especially concerning, as they constitute the vast majority of models in institutional deployments. We introduce QueryBandits, a model-agnostic contextual bandit framework that adaptively learns online to select the optimal query-rewrite strategy by leveraging an empirically validated and calibrated reward function. Across 16 QA scenarios, our top QueryBandit (Thompson Sampling) achieves an 87.5% win rate over a No-Rewrite baseline and outperforms zero-shot static policies (e.g., Paraphrase or Expand) by 42.6% and 60.3%, respectively. Moreover, all contextual bandits outperform vanilla bandits across all datasets, with higher feature variance coinciding with greater variance in arm selection. This substantiates our finding that there is no single rewrite policy optimal for all queries. We also discover that certain static policies incur higher cumulative regret than No-Rewrite, indicating that an inflexible query-rewriting policy can worsen hallucinations. Thus, learning an online policy over semantic features with QueryBandits can shift model behavior purely through forward-pass mechanisms, enabling its use with closed-source models and bypassing the need for retraining or gradient-based adaptation.

No es una solución única: QueryBandits para la mitigación de alucinaciones

No One Size Fits All: QueryBandits for Hallucination Mitigation

Resumen

Support